在2024年5月28日,《Reciprocal conversion between annual and polycarpic perennial flowering behavior in the Brassicaceae》总算是正式上线了,文章是open access,可以在 https://www.cell.com/cell/fulltext/S0092-8674(24)00473-2 阅读。
这个工作,从我来到王老师课题组时,就已经开展了,倒是可以认为是“十年磨一剑”了。最早是凌子师姐负责的,课题组从SENDAI Arabidopsis Seed Stock Center (SASSC) 订购了不少的种子,进行杂交,折腾了不少的组合,最后发现了一对须弥芥,喜马拉须弥芥(Crucihimalaya himalaica)和卵叶如须弥芥(C. wallichii),明明长得不像,却能够杂交得到后代,并能自交得到F2,也算是运气很不错了。
拿到这对组合后,我们就想着去定位目标基因了,然而这两个物种并没有参考基因组,于是,当时的我就开始学习三代基因组组装。我们一开始只是测了两个物种的PacBio,用Canu 组装到了contig水平。同时期,我们还测了F2的GBS群体,从省钱的角度出发,我决定自己搞一个遗传图谱,毕竟contig的N50已经> 5Mb了,那遗传图谱随便挂载个contig,应该不成问题。
结果,真成问题了!我原以为遗传图谱搭建很容易的,没想到,并没有那么完善的流程。首先是GBS测序,这玩意本身就不适合常规的变异检测流程,普通的流程要去除PCR重复,但是GBS测序特性决定了它不能去重,另外variant calling会根据一些阈值进行筛选,但是显然也不适合GBS,就比如说位置偏好性,显然,突变只会出现在一个位置上。当然,经过一波努力和探索,我还是解决了上述的问题,拿到了snp.vcf文件。但是,问题又来了,那个时候并没有把VCF文件换进去,就能得完美图谱的工具。那个时候,我找到了一些工具,一个是MapMaker,不过它也就支持不到1万个标记吧,但是初步过滤得到的VCF动辄十几万。另外一个是ASMap,我还写一个文章,叫做《使用ASMap构建高密度遗传图谱》,他可以构建非常高密度的遗传图谱。当然,后续我发现,无论是哪个工具,都需要高质量的分子标记,直接用SNP肯定是不靠谱的,于是乎,我搞了一个工具叫做,binmapr,用来完成这个工作。
在我折腾的同时,王老师拉着我们中间还听了一个报告,报告人提到了,他们可以无参构建一个遗传图谱,于是我们把数据给他们,让他们搭建了图谱。不过,当我知道这个服务费用后,我大吃一惊,这个费用都够我搞Hi-C了,我要这个遗传图谱干嘛,更何况,这个图谱还不是特别的完整。主要是因为群体不是特别大,也就是不到300,按照一个染色体可能1-2个交换事件,也就可能是3000个交换吧。有些地方还是因为跨物种杂交,导致不容易分离,最后这个数据也没用到文章上,不过倒是证明我的流程的是对的。
有了遗传图谱后,我们立刻定位到了一个基因,FLM,以及其他几个候选区间,当时很兴奋,感觉基因都拿到了,是不是文章离上线不远了。然而我果然太年轻,我们课题组实在是太严谨了,我们发现这个喜马拉须弥芥的多年生的习性并不是特别的严格,于是,这个时候师弟上场了,他哐哐一顿操作,搞出了另外一对组合,也就是糖芥组合,这两个是真的严格多年生和一年生,只不过不太好做遗传转化,不如须弥芥。同时,在糖芥这个组合帮助下,我们找到了另外两个基因,FLC和MAF。当然,这三个基因到底对不对呢,糖芥不太好做遗传转换,于是,我们就对拟南芥和须弥芥下手了,一波转基因操作下,我们在遗传学上真的确定了,同时也测了不少组学数据,从表观角度角度上做了一些探索。虽然短短几句,但实际上确实好几年的工作量。
后来,我把这部分工作里的基因组组装部分给拎出来,在加上一些系统发育树上的工作,作为我的博士毕业论文的内容,也算是顺利毕业了。