十种长足寄蝇亚科昆虫线粒体基因组比较研究及寄蝇科生物信息学分析

寄蝇科(Tachinidae)隶属于双翅目(Diptera)有瓣蝇类(Calyptratae)狂蝇总科(Oestroidea),在各生物地理区系内均有分布,全世界记录有4亚科58族1500属8592种,其中中国记录有4亚科42族285属1253种,其成虫形态复杂,幼虫寄生生活方式的多样性,为绝大多数农林业、果、蔬、园林等害虫最有效的寄生性天敌之一,在自然条件下以及在人工生态系统中控制害虫的种群数量起着极为重要的调节作用。其在植物保护领域,尤其是在生物防治或害虫综合防治方面具有很大的应用前景及应用价值。目前,Gene Bank中记录长足寄蝇亚科昆虫线粒体基因组数量仅7种,因此对长足寄蝇亚科线粒体基因组进行测序分析,对于明晰寄蝇科及长足寄蝇亚科的进化和系统发育关系有着重要的意义。目的:为丰富寄蝇科线粒体基因组数据,进一步了解长足寄蝇亚科线粒体基因组的特征和各分类阶元间的系统发育关系,本研究对十种长足寄蝇亚科昆虫线粒体基因组测序,运用生物信息学的技术和方法,对该亚科线粒体基因组的基本组成特点进行比较分析,重构寄蝇科系统发育树,初步探讨长足寄蝇亚科和寄蝇科各分类阶元的系统发生关系。此外,对寄蝇科代表性种类的线粒体基因组蛋白编码基因的部分结构信息进行预测分析,为今后寄蝇科的分子系统进化的深入研究奠定理论基础。方法:本研究采用高通量测序结合普通PCR的方法对十种长足寄蝇亚科昆虫线粒体基因组进行测序,利用Mito Z对数据集进行组装、MITOS2初步注释、MEGA和Bio Edit等软件对其线粒体基因组的核苷酸组成特点进行比较分析;以45种寄蝇科昆虫(包括本研究测序十种)为内群,花蝇科的Fucellia costalis和麻蝇科的Sarcophaga ruficornis为外群,基于13个蛋白质编码基因的核苷酸序列,运用最大似然法(ML)和贝叶斯推理(BI)两种方法重构寄蝇科系统发育树,初步研究寄蝇科和长足寄蝇亚科的系统发育关系。利用生物信息学的技术和方法,对寄蝇科12个代表性物种的线粒体基因组蛋白编码基因的理化性质、磷酸化位点、糖基化位点、亲/疏水性、跨膜结构、二级结构和三级结构进行预测分析;用拉曼图验证预测三维模型的可信度,对预测模型的氨基酸的二面角进行分析,评估预测模型的可靠性。结果:通过对十种长足寄蝇亚科昆虫线粒体基因组测序及比较分析,以及运用生物信息学方法对寄蝇科12个物种的线粒体基因组蛋白编码基因的部分结构信息进行研究,结果表明:(1)长足寄蝇亚科线粒体基因组均包含37个基因:13个蛋白质编码基因(PCGs)、22个转运RNA(t RNAs)基因、2个核糖体RNA(r RNAs)基因和一个控制区。十种长足寄蝇线粒体基因组大小分别为:15,656 bp(Halydaia aurea)、15,071 bp(Dexia fulvifera)、15,221 bp(Dexia tenuiforceps)、15,103 bp(Thelaira macropus)、14,995 bp(Trixa longipennis)、16,205 bp(Dinera similis)、16,313 bp(Prosena siberita)、15,181 bp(Leptothelaira longipennis)、15,768 bp(Estheria wangi)、16,616 bp(Thelaira chrysopruinosa);核苷酸组成中A含量大于T含量,G含量略小于C含量,整体表现为明显的AT偏向性(细尾铗长足寄蝇D.tenuiforceps的A含量略小于T含量,G含量略大于C含量);(2)13个蛋白质编码基因中,除COⅠ以特殊密码子TCG、ND4以GTG、ND1以GTG和TTG起始外,其余蛋白编码基因均以标准的ATN(A/T/C/G)起始;终止密码子使用中,大部分以标准的TAA为终止密码子,部分为TAG(ATP6、COIII、ND3、ND5、ND4、CYTB和ND1中),除此之外,以不完整的T为终止密码的现象出现在ND2、COⅠ、COII、ND5、ND4和CYTB中;(3)t RNA基因大小在59 bp(长羽特西寄蝇T.longipennis的t RNA~(Glu))?73bp(长茎瘦寄蝇L.longipennis的t RNA~(Val))之间。22个转运RNA(t RNAs)基因二级结构中,除t RNA~(Ser(AGN))缺少二氢尿嘧啶臂(DHU?arm)仅形成了一个环以外,其余21个t RNA基因的二级结构均形成典型的三叶草形。除了经典的A?U与C?G配对外,还发现U?U、A?C、A?A和G?U错配;(4)16S r RNA位于t RNA~(Val)和t RNA~(Leu(CUN))之间,大小在1,298 bp(D.tenuiforceps)?1,363 bp(L.longipennis);12S r RNA位于t RNA~(Val)与控制区(CR)之间(T.chrysopruinosa位于t RNA~(Val)与t RNA~(Gln)之间),大小在782 bp(T.longipennis)?831 bp(D.tenuiforceps)之间;(5)在ATP8?ATP6位置,所有种类都存在7 bp(ATGATAA)的重叠;其次,ATP6?COIII位置存在1 bp(A)重叠(除E.wangi),ND4?ND4L重叠存在7 bp(ATGTTAA)重叠(T.longipennis为GTGTTAA),其中H.aurea无重叠,P.handlirschi、D.tenuiforceps和L.longipennis重叠1 bp(T);最后是ND6?CYTB位置,重叠1 bp(A),P.siberita和L.longipennis此区间无重叠,取而代之的是4 bp(ATTA)和3 bp(TTA)的间隔;(6)长足寄蝇亚科昆虫线粒体基因组的基因排列顺序较为保守,仅柔寄蝇属Thelaira的t RNA基因簇中发现trn I?trn Q?trn M重排为trn Q?CR?trn I?trn M,且重排后在trn I与trn M之间发现有25 bp的基因间隔;(7)长足寄蝇亚科线粒体基因组蛋白编码基因中,ATP8和ND6进化速率较快,COI和CYTB相对保守;(8)长足寄蝇亚科昆虫线粒体基因组非编码区中,控制区大小在248 bp(T.macropus)至1,478 bp(P.siberita)之间,AT含量在85.93%(T.longipennis)?97.34%(T.chrysopruinosa)之间。基因间隔数量从10处(T.longipennis)到17处(P.siberita)不等;其中,最长间隔位于T.chrysopruinosa的12S r RNA与t RNA~(Gln)之间,长度达到了72 bp;(9)基于线寻找更多粒体基因组13个蛋白质编码基因构建的系统发育树中,得到的ML树和BI树拓扑结构几乎相同,研究结果支持寄蝇科Tachinidae和追寄蝇亚科Exoristinae的单系性;长足寄蝇亚科Dexiinae为并系群;寄蝇亚科Tachininae和突颜寄蝇亚科Phasiinae为多系群;(10)通过同源性比对,寄蝇科12个物种各编码蛋白基因间氨基酸序列同源性从32.07%(ATP8)到52.47%(COI),COI相对保守;氨基酸个数在53(ATP8)?579(ND5),相对分子质量的大小在6389.67?66621.38 Da之间,理论等电点在4.83?10.30之间,编码蛋白的疏水值均为正值,疏水值在0.100?1.298之间,说明所有蛋白编码基因都为疏水性蛋白;线粒体基因组编码蛋白都存在跨膜区,跨膜次数在1(ATP8)?16(ND5)之间,同时都存在磷酸化位点;此外,N?糖基化位点预测中,ATP8、COII、COIII、ND1、ND3、ND4、ND4L和ND6编码蛋白的糖基化位点极少,甚至没有发生糖基化修饰位点;(11)二级结构表明线粒体基因组13个蛋白编码基因购买SCH772984的氨基酸序列主要包含了α螺旋、β转角、延伸链和无规则卷曲四个部分,其中α螺旋和无规则卷曲所占比率较高,几乎占整条肽链的一半以上;构建三级结构的结果中,除长足寄蝇亚科广长足寄蝇D.fulvifera的ATP8编码蛋白因没有同源模板无法预测三级结构外,所有蛋白质均能形成稳定的三级结构,所包含的结构元件几乎和SOPMA预测结果一致,并在寄蝇科中各物种间无明显差异。结论:长足寄蝇亚科昆虫线粒体全基因组的基本结构和基因组成与寄蝇科其它种类昆虫一致。十种长足寄蝇线粒体基因组全长在14,995 bp(Trixa longipennis)?16,616 bp(Thelaira chrysopruinosa)之间;在密码子的使用中,composite hepatic events更偏向于使用A或T含量高的密码子;柔寄蝇属Thelaira的t RNA基因簇发生重排,在寄蝇科中属首次发现。系统发育研究提示:寄蝇科Tachinidae和追寄蝇亚科Exoristinae为单系群,长足寄蝇亚科Dexiinae为并系群,寄蝇亚科Tachininae和突颜寄蝇亚科Phasiinae为多系群。生物信息学预测结果表明:13个线粒体基因组编码蛋白均为疏水性跨膜蛋白,存在磷酸化和糖基化修饰位点;二级结构主要由α螺旋和无规则卷曲组成,预测的三级结构较为稳定。通过比较发现,寄蝇科线粒体基因组编码蛋白质的空间结构在种间无显著性差异。