原理介绍
在基因组数据分析中,MatK(maturase K)是一种在植物的叶绿体基因组中发现的基因。它编码一个蛋白质,属于内含子切割酶/核糖体核酸酶(RNase)H类家族的一部分,参与植物叶绿体基因的剪接过程。MatK基因特别因其在系统发育分析中的应用而闻名,被广泛用于植物种类的鉴定和进化关系的研究。
MatK基因区域是一个高度保守的编码区,但在不同物种之间显示出足够的变异,使其成为研究植物系统发育关系的一个重要标记。它的序列变异可以提供植物不同类群之间关系的有力证据。因此,在植物分类学、进化生物学和生物多样性研究中,MatK基因是一个非常有价值的工具。
由于MatK基因在植物中的普遍存在和其序列的特异性,它被认为是植物DNA条形码的核心部分之一。DNA条形码是指选定的DNA序列,用于识别和区分物种。在植物界,MatK基因与rbcL基因一起,常被用作标准的DNA条形码序列,因为这两个基因区域的组合提供了良好的物种识别能力和系统发育信号。
操作过程
假设二代测序数据是 species_R1.fastq.gz 和 species_R2.fastq.gz 。
使用GetOrganelle 对序列进行组装 (如果是三代测序,可以用Oatk)
# 下载植物的线粒体和叶绿体序列
get_organelle_config.py --add embplant_pt,embplant_mt
# 组装
get_organelle_from_reads.py -1 species_R1.fastq.gz -2 species_R1.fastq.gz -t 32 -o plastome -F embplant_pt -R 10
之后,使用MatK序列进行BLAST,例如拟南芥的MatK序列是
>ATCG00040.1 | Symbols: MATK | maturase K | chrC:2056-3636 REVERSE LENGTH=1581
ATGTGTCATTTCAGAACTCAAGAAAATAAAGACTTTACCTTCAGTTCAAATCGAATTTCA
ATCCAAATGGATAAATTTCAAGGATATTTAGAGTTCGATGGGGCTCGGCAACAGAGTTTT
CTATATCCACTTTTTTTTCGGGAGTATATTTATGTACTTGCTTATGATCATGGTTTAAAT
AGATTAAATAGAAATCGCTATATTTTCTTGGAAAATGCGGATTATGACAAAAAATATAGT
TCACTAATTACGAAACGCTTAATTTTGCGAATGTATGAACAGAATCGTTTGATTATTCCC
ACTAAGGATGTGAACCAAAATTCCTTTTTGGGGCATACCAGTCTTTTCTATTATCAAATG
ATATCTGTTTTATTTGCAGTGATTGTCGAAATTCCATTTTCCCTAAGATTAGGATCCTCT
TTTCAAGGAAAACAATTAAAAAAATCTTATAATTTACAATCAATTCATTCAATATTTCCC
TTTTTAGAAGACAAATTAGGACATTTTAATTATGTGTTAGATGTACTAATACCTTACCCC
ATCCATCTAGAAATCTTGGTTCAAACCCTACGTTACCGGGTAAAAGATGCCTCTTCTTTG
CATTTTTTTCGGTTCTGTTTATACGAGTATTGTAATTGGAAGAATTTTTATATTAAAAAA
AAATCAATTTTGAATCCAAGATTTTTCTTGTTCTTATATAATTCTCATGTATGTGAATAC
GAATCCATCTTTTTTTTTCTACGCAAGCGGTCTTCGCATTTACGATCGACATCTTATGAA
GTCCTTTTTGAGCGAATTGTATTCTATGGAAAAATACACCATTTTTTCAAAGTTTTTGTT
AATAATTTTCCGGCAATCCTAGGGTTGCTCAAGGATCCTTTCATACATTATGTTAGATAT
CACGGAAGATGCATTCTGGCAACAAAGGATACGCCGCTTCTGATGAATAAATGGAAATAT
TATTTTGTTAATTTATGGCAATGTTATTTTTCGGTATGGTTTCAATCGCAAAAGGTCAAT
ATAAATCAATTATCTAAAGATAATTTAGAGTTTCTGGGTTATCTGTCAAGTTTGCGATTA
AACCCTTTAGTGGTACGTAGTCAAATGCTAGAAAACTCATTTCTAATAGATAATGTTAGA
ATCAAATTGGATAGCAAAATTCCAATTTCTTCTATTATTGGATCGTTGGCTAAAGATAAA
TTTTGTAATGTATTAGGGCATCCCATTAGTAAAGCAACCTGGACGGATTCATCAGATTCT
GATATTCTCAACCGATTTGTGCGGATATGCAGAAATATTTCTCATTATTACAGCGGATCT
TCAAAAAAAAAGAATTTGTATCGAATAAAATATATACTTCGTCTTTGTTGTGTTAAAACT
TTGGCTCGTAAACACAAAAGTACTGTACGCACTTTTTTAAAAAGGTTGGGCTCTGGTTTA
TTGGAAGAATTCCTTACGGGGGAAGACCAAGTTCTTTCTTTAATCTTCCCAAGAAGTTAT
TATGCTTCTAAAAGATTATATCGAGTGCGAATTTGGTATTTGGATATTCTTTATCTTAAT
GATTTGGTCAATCATGAATAA
然后用BLAST进行比对
# embplant_pt.K115.complete.graph1.1.path_sequence.fasta是组装结果
makeblastdb -in embplant_pt.K115.complete.graph1.1.path_sequence.fasta -dbtype nucl
# 比对数据,直接输出目标序列
blastn -query ../AthMATK.fa -db embplant_pt.K115.complete.graph1.1.path_sequence.fasta -outfmt '6 sseq'
最后直接用这段序列去NCBI上进行BLAST确定。
PS : 当然直接设计引物扩增线粒体的MatK基因也是比较节省成本的做法。