写在Cell上线时

在2024年5月28日，《Reciprocal conversion between annual and polycarpic perennial flowering behavior in the Brassicaceae》总算是正式上线了，文章是open access，可以在 https://www.cell.com/cell/fulltext/S0092-8674(24)00473-2 阅读。

这个工作，从我来到王老师课题组时，就已经开展了，倒是可以认为是“十年磨一剑”了。最早是凌子师姐负责的，课题组从SENDAI Arabidopsis Seed Stock Center (SASSC) 订购了不少的种子，进行杂交，折腾了不少的组合，最后发现了一对须弥芥，喜马拉须弥芥（Crucihimalaya himalaica）和卵叶如须弥芥（C. wallichii），明明长得不像，却能够杂交得到后代，并能自交得到F2，也算是运气很不错了。

拿到这对组合后，我们就想着去定位目标基因了，然而这两个物种并没有参考基因组，于是，当时的我就开始学习三代基因组组装。我们一开始只是测了两个物种的PacBio，用Canu 组装到了contig水平。同时期，我们还测了F2的GBS群体，从省钱的角度出发，我决定自己搞一个遗传图谱，毕竟contig的N50已经> 5Mb了，那遗传图谱随便挂载个contig，应该不成问题。

结果，真成问题了！我原以为遗传图谱搭建很容易的，没想到，并没有那么完善的流程。首先是GBS测序，这玩意本身就不适合常规的变异检测流程，普通的流程要去除PCR重复，但是GBS测序特性决定了它不能去重，另外variant calling会根据一些阈值进行筛选，但是显然也不适合GBS，就比如说位置偏好性，显然，突变只会出现在一个位置上。当然，经过一波努力和探索，我还是解决了上述的问题，拿到了snp.vcf文件。但是，问题又来了，那个时候并没有把VCF文件换进去，就能得完美图谱的工具。那个时候，我找到了一些工具，一个是MapMaker，不过它也就支持不到1万个标记吧，但是初步过滤得到的VCF动辄十几万。另外一个是ASMap，我还写一个文章，叫做《使用ASMap构建高密度遗传图谱》，他可以构建非常高密度的遗传图谱。当然，后续我发现，无论是哪个工具，都需要高质量的分子标记，直接用SNP肯定是不靠谱的，于是乎，我搞了一个工具叫做，binmapr，用来完成这个工作。

在我折腾的同时，王老师拉着我们中间还听了一个报告，报告人提到了，他们可以无参构建一个遗传图谱，于是我们把数据给他们，让他们搭建了图谱。不过，当我知道这个服务费用后，我大吃一惊，这个费用都够我搞Hi-C了，我要这个遗传图谱干嘛，更何况，这个图谱还不是特别的完整。主要是因为群体不是特别大，也就是不到300，按照一个染色体可能1-2个交换事件，也就可能是3000个交换吧。有些地方还是因为跨物种杂交，导致不容易分离，最后这个数据也没用到文章上，不过倒是证明我的流程的是对的。

有了遗传图谱后，我们立刻定位到了一个基因，FLM，以及其他几个候选区间，当时很兴奋，感觉基因都拿到了，是不是文章离上线不远了。然而我果然太年轻，我们课题组实在是太严谨了，我们发现这个喜马拉须弥芥的多年生的习性并不是特别的严格，于是，这个时候师弟上场了，他哐哐一顿操作，搞出了另外一对组合，也就是糖芥组合，这两个是真的严格多年生和一年生，只不过不太好做遗传转化，不如须弥芥。同时，在糖芥这个组合帮助下，我们找到了另外两个基因，FLC和MAF。当然，这三个基因到底对不对呢，糖芥不太好做遗传转换，于是，我们就对拟南芥和须弥芥下手了，一波转基因操作下，我们在遗传学上真的确定了，同时也测了不少组学数据，从表观角度角度上做了一些探索。虽然短短几句，但实际上确实好几年的工作量。

后来，我把这部分工作里的基因组组装部分给拎出来，在加上一些系统发育树上的工作，作为我的博士毕业论文的内容，也算是顺利毕业了。

2026-01-18

AtlasMap重构已发表的单细胞数据库

写在Cell上线时

喜欢这篇文章？打赏一下作者吧

评论

分类

标签云

链接

最新文章

标签

最新文章

标签

Your browser is out-of-date!