分类:农业论文 时间:2022-04-09 热度:702
摘 要: 直翅目是不完全变态昆虫中数量最多的一个类群,全世界已知 28 000 种以上。随着分子生物学技术的发展,线粒体基因组因进化速率快、普遍为母系遗传、极少发生重组等特点而被广泛应用于直翅目各个阶元的系统发育和进化研究中。目前,已有 223 条直翅目线粒体基因组序列被测定并上传至 NCBI 数据库,其中包括 143 条蝗亚目线粒体基因组序列和 80 条螽亚目序列。直翅目昆虫的线粒体基因组大小为 16 kb 左右,包括 37 个编码基因和一段控制区,是共价闭合的双链 DNA 结构,碱基组成有明显的 AT 偏向性。结合线粒体基因组数据探讨系统发育,有利于解决直翅目系统发生关系和进化方面的问题,但同时也存在研究类群不全面、数据信息发掘不到位等方面的不足。
关键词: 直翅目; 线粒体基因组; 分子系统学; 系统发育; 分子进化
直翅目隶属于昆虫纲有翅亚纲,是多新翅类中多样性最为丰富的一个目,分布广泛,几乎占据地球上所有陆生栖息地,包括蝗虫、蚱蜢、蟋蟀、螽斯和蝼蛄等常见的昆虫。截止到 2020 年 7 月,全世界已知 28 664种[1]。直翅目昆虫多为植食性种类,对农作物构成严重威胁。例如 2019 年 5 月始于东非的沙漠蝗灾,为害区域甚至蔓延到亚洲的印度、伊朗、巴基斯坦等国[2]。部分螽斯类昆虫为捕食性种类,是重要的昆虫天敌,可作为生物防治的潜在资源。因此,对直翅目昆虫分类和系统发育的研究不仅有利于建立更符合昆虫进化实际的分类系统,而且在害虫的防治和资源的利用上也具有现实意义。
直翅目昆虫起源较早,最早见于石炭纪[3]。长期以来,直翅目学者基于不同证据探讨了直翅目的系统发育关系,这些证据包括化石翅脉的脉相、内部器官结构、外部形态特征及雄性外生殖器等,绝大部分研究结果都强烈支持直翅目及螽亚目与蝗亚目的单系性[4],但亚目内部系统发育关系尚未完全解决。随着分子系统学的快速发展,DNA 分子序列( 包括核基因序列与线粒体基因序列) 数据被越来越多地用于探讨直翅目的系统发育。二代和三代测序技术成本的快速降低使全线粒体基因组测序变得更加容易,极大地促进了全线粒体基因组数据在探讨直翅目系统发育中的应用[5-7]。截至 2020 年 7 月,NCBI 数据库中共收录 223 条直翅目昆虫全线粒体基因组序列( https: / /www.ncbi.nlm.nih.gov /genome /organelles) ,其中包括蝗亚目 7 总科 15 科 143 种[4,7-61],螽亚目 7 总科 11 科 80 种[7-9,61-95]。本文详细介绍直翅目全线粒体基因组测序的发展历史、全线粒体基因组特征及其在直翅目系统发育研究中的应用。
1 直翅目全线粒体基因组的测序与组装
1.1 直翅目全线粒体基因组的测序
DNA 分子数据中含有大量遗传信息,且没有因利用形态特征分析时人为因素产生的误差,故用来辅助重建系统发育关系更为有效。常用的线粒体基因组具有结构简单、拷贝数多、无组织特异性、基因进化速率快以及物种内几乎不发生重组的母系遗传等特点,成为研究种群结构、分类群和基因进化的热门数据来源[96]。
相关知识推荐:植物基因工程英文论文润色难吗
近年来,随着测序技术的提升和测序成本的降低,越来越多的直翅目昆虫全线粒体基因组序列被测序并上传至 NCBI 数据库( 图 1) 。总的来说,直翅目线粒体基因组测序经历了 3 个时期: 1) 第 1 阶段中,首先采用氯化铯密度梯度离心法或差速离心法等物理方法分离细胞器并提纯线粒体 DNA; 然后用限制性内切酶或超声波将线粒体 DNA 分成不同长度的短片段; 最后克隆到质粒载体中测序。这种方法在早期获取线粒体基因组时应用较多[97]。1995 年 Flook 等[10]就采用分离线粒体 DNA 并克隆到 pUC8 质粒载体进行扩增的方法,测得了首个直翅目昆虫飞蝗 Locusta migratoria 的全线粒体基因组序列。由于该方法操作较繁琐、耗时耗材,并且需要新鲜样本,因此直翅目线粒体基因组序列的获得进度非常缓慢。2) 第 2 阶段先提取总 DNA,再设计不同的引物通过 PCR 扩增出覆盖线粒体全基因组的片段,纯化后测序。对于一些结构复杂导致 PCR 产物无法测序的片段再进行克隆测序。这种方法也称引物步移法。该方法对引物的数量和保守性都有一定的要求,但较第一种步骤简化,且利用长 PCR 可以避免线粒体假基因的干扰,因此该方法也是目前小规模提取线粒体基因的常用方法[4,7-8,11-50,62-76,98]。2005 年,Kim 等[62]基于 COX1 基因 PCR扩增产物,将全线粒体基因组分成 11 个片段,采用引物步移法获得了第 2 个直翅目昆虫东方蝼蛄 Gryllotalpa orientalis 的完整线粒体基因组序列。之后,为了满足引物的通用性,刘念等[11]从 NCBI 的核酸数据库下载已有的 36 种昆虫的线粒体全基因组,选取保守区域设计出 2 对长 PCR 通用引物:
A 片段上游引物———CATTTATTTTGATTYTTTGGWCAYCCAGAAGT,
A 片段下游引物———AAAATWGCRTAWGCAAATARAAAATATCATTC;
B 片段上游引物———WACACCAGTTCATATTCAACCAGAATGATATT,
B 片段下游引物———TGATTAGCTCCACAAATTTCTGAACATTGACC。
并应用这 2 对引物成功扩增出 10 种蝗虫的线粒体基因组[11],提高了获取直翅目全线粒体基因组的效率。 3) 第 3 阶段为高通量测序。先将待测 DNA 样品随机打断成 50~700 bp 的短片段,再通过在 3'或 5'端添加接头使其与微珠结合的方法把单个小片段 DNA 分子结合到固相表面进行独立扩增测序。高通量测序用时少,准确率高,能在短时间获得大量的线粒体基因组序列[99]。因此,越来越多的昆虫分类研究者通过高通量测序的方法获得完整的直翅目线粒体基因组序列[9,51-61,77-95]。但是对于样本较少的情况,采用高通量测序法成本较高,并且后续数据处理需要用到生物信息学分析,较为复杂。
1.2 直翅目线粒体基因组组装策略
在高通量测序技术发展之前,直翅目线粒体基因组组装是基于传统的引物步移法,即,采用长 PCR 和 PCR 产物克隆的方法获得能够覆盖整个线粒体基因组的若干片段,再通过 Staden Package 软件包完成序列的拼接。主要流程为: 在 Staden Package 的 Pregap 4 中利用序列之间的重叠区域进行拼接,并删除质粒载体序列,拼接完成后得到全线粒体序列,在 Gap 4 中打开拼接好的序列并进行编辑后,输出 Fasta 格式文件,用于后续注释[100]。而高通量测序是将线粒体 DNA 随机打碎成短片段独立扩增测序,因此要获得完整的线粒体基因组需要对高通量测序产生的大量数据进行组装。目前,直翅目线粒体基因组组装主要分为有参考序列组装方法和从头组装方法。
1.2.1 有参考序列组装方法
有参考序列的组装方法需要选择与研究个体亲缘关系密切的物种的完整线粒体基因或部分片段作为参考序列。根据同源比对的研究方法,将高通量测序数据比对到近缘物种的线粒体基因组上,或者根据高通量测序数据与参考序列片段的相似性捕获线粒体 reads,然后再使用不同的序列延长策略对捕获到的线粒体 reads 进行序列延伸,最后延长到完整的线粒体基因组长度[101]。刘菲等[78]以斑翅草螽线粒体基因组序列为参考,使用 Mira 4.0.2 和 MITObim 1. 7 [102]组装得到完整的异刺草螽线粒体基因组序列。Zhang 等[51]以 Oedaleus infernalis 线粒体基因片段为参考序列,组装获得 Aiolopus thalassinus 的全线粒体基因组序列。Ma 等[83]以 Teleogryllus commodus 线粒体基因片段为参考序列,组装获得了 Cacoplistes rogenhoferi、 Meloimorpha japonica 及 Ornebius 属 3 种的完整线粒体基因组。但这种组装方法依赖参考序列,并且通常很难设定一个适当的标准来定义密切相关的物种。当缺乏近缘物种的线粒体基因信息时,会发生短序列错配或因序列分歧大导致比对不上而出现数据缺失( gap) [102],影响线粒体基因组装的完整性和准确率。
1.2.2 从头组装方法
由于目前被测定线粒体基因组信息的直翅目昆虫物种数有限,没有近缘物种参考序列的物种线粒体基因可以采用从头组装的方法。首先将高通量测序获得的核基因和线粒体基因 reads 都分别拼接为长片段序列( Contigs) ,然后依据线粒体基因组序列长度和测序深度过滤得到候选线粒体 Contigs,最后反复将高通量测序数据比对到候选线粒体 Contigs 上,不断延长 Contigs,直到获得完整线粒体基因组[103]。Guan 等[84]和 Zhou 等[63]采用 SOAPdenovo-Trans 软件[104] 先后获得 Ducetia japonica、Diestrammena asynamora、 Decma fissa 和 Holochlora fruhstorferi 的完整线粒体基因序列。从头组装方法不需要提供近缘物种完整或部分的线粒体基因组作为参考序列,但因为需要对整个基因组进行组装,所以耗费计算资源,对硬件配置有一定要求[101]。因此,迫切需要流程简化高效、功能全面的软件,以提高获得线粒体基因组的效率,把更多的时间和精力投入到生物学问题研究上。Meng 等[105]开发的 MitoZ 软件根据线粒体基因组 reads 的平均测序深度远高于核基因组的特点,通过设置不同的参数来达到最佳的拼装效果,包括原始数据的预处理、从头拼装、候选线粒体序列的富集和线粒体基因组的注释和可视化等功能,可以“一键式”地完成线粒体基因组的组装和分析,极大地简化了数据的分析过程。MitoZ 软件有 2 种拼装方式: 快捷模式和多 kmer 模式。快捷模式的 kmer 值( 拼装过程中 reads 打断成长度为 K 的一段固定核苷酸序列) 默认为 71,而多kmer 模式下用户可以自由调整 kmer 值。Chang 等采用该软件成功拼接出 Bryodema kozlovi [106]( MT499330.1) 、 Epacromius coerulipes [107] ( MT499331. 1) 、Filchnerella rubrimargina [108] ( MT499332. 1) 和 Oedaleus manjius [109] ( MT499333.1) 的全线粒体基因组序列并上传至 NCBI 数据库( https: / /www.ncbi.nlm.nih.gov /nuccore /) 。
2 直翅目线粒体基因组特征
2.1 直翅目线粒体基因组结构
同其他后生动物一样,直翅目昆虫的线粒体基因为共价闭合的双链环状 DNA,包含 13 个蛋白编码基因、22 个 tRNA 基因、2 个 rRNA 基因和一段控制区,多数基因在一条链上编码,该链称为重链( 在昆虫中也称为 J 链,Majority Strand) ,另一条链为轻链( 在昆虫中也称为 N 链,Minority Strand) [96]。13 个蛋白编码基因包括细胞色素 b 基因( Cytb) 、细胞色素氧化酶的 3 个亚基基因( COX1—COX3) 、ATP 酶的 2 个亚基基因 ( ATP6、ATP8) 和 NADH 脱氢酶的 7 个亚基基因( ND1—ND6、ND4L) [110],其中: ND5 基因是线粒体基因组中最大的蛋白编码基因,具有较高的系统发育信息量,已被应用到许多类群的进化关系研究中; COX1 基因系统发育信息量丰富且保守度较高,已经作为条形码应用到多个类群的物种鉴定中。22 个 tRNA 基因可以识别全部的氨基酸密码子,转运 20 种常见的氨基酸。2 个 rRNA 基因分别为 srRNA 和 lrRNA,转录形成的 rRNA 可以通过碱基互补配对形成稳定的二级结构。控制区( control regions,CR) 由于 AT 含量较高也被称为 A+T 丰富区,是线粒体基因组中长度变化最大的区域,但其中也存在一些保守的串联重复序列,例如,poly-T、[TA( A) ]n 结构和 G+A 富集结构,这些保守结构可能与基因组复制起点的识别有关。
2.2 直翅目线粒体基因组特征
2.2.1 基因组大小与基因重排
直翅目线粒体基因组大小在 14~18 kb。螽斯总科中: Zhou 等[64]测得的 Ruspolia dubia 线粒体基因组最短,是 14 971 bp; 赵乐等[111]测得的 Phaneroptera gracilis 的线粒体基因组最长,是 18 255 bp。长度产生差异的原因推测与控制区和基因间隔区长度相关,例如: 中华树蟋 Oecanthus sinensis 线粒体基因组全长 16 142 bp,其中控制区长 1 448 bp; 梨片蟋 Truljalia hibinonis 线粒体基因组全长 15 120 bp,其中控制区长 498 bp [65]。在基因排列顺序方面,大部分直翅目线粒体基因排列顺序都与祖先序列相同,少数发生变化。此前,在螽亚目中已发现 6 种线粒体基因排列方式[63]: 第 1 种是与祖先序列相同的排列; 第 2 种( trnItrnM-ND2-CR-trnQ) 存在于露螽亚科华绿螽属 Sinochlora 的 2 个物种和傅氏绿露螽 Holochlora fruhstorferi 中[66]; 第 3 种( trnR-trnSAGN-trnA-trnN-trnG-ND3) 存在于迟螽亚科 Lipotactinae 的三锥迟螽 Lipotactes tripyrga 中; 第 4 种( trnM-trnI-trnQ) 存在于 5 个拟叶螽亚科物种中; 第 5 种( trnA-trnR-trnE-trnSAGN-trnN-trnF) 存在于 4 个蟋蟀科 Gryllidae 的物种中; 而第 6 种( trnR-trnA) 存在于 鸣 螽 科 Cyphoderrinae 亚 科 的 Cyphoderris monstrosa 中。在蝗亚目中,除日本蚤蝼 Tridactylus japonicus 和变色乌蜢 Erianthus versicolor 以外,普遍存在 trnK 与 trnD 易位现象[111]。总的来说,相较于缨翅目和膜翅目等基因重排现象普遍的类群,直翅目昆虫线粒体基因组的基因组成和排列相对保守。
2.2.2 碱基组成
直翅目昆虫线粒体基因在碱基组成方面同其他昆虫一样含很高的 AT 比例,大多在 70%以上。已上传的直翅目线粒体基因组序列中: Dasyhippus barbipes 的 A+T 含量最高( 77.82%) ,而 Gampsocleis gratiosa 最低( 65.31%) ; 蝗 亚 目 7 个 总 科 中 蝗 总 科 Acridoidea 的 平 均 A + T 含 量 最 高 ( 74. 90%) ,蚤 蝼 总 科 Tridactyloidea 的最低( 68.24%) ; 螽亚目 7 个总科中裂跗螽总科 Schizodactyloidea 的平均 A+T 含量最高 ( 75.04%) ,原螽总科 Hagloidea 的最低( 69.41%) 。但同一总科物种间的碱基含量差异不大,例如蜢总科 Eumastacoidea( SD = 0. 22%) 、癞 蝗 总 科 Pamphagoidea ( SD = 0. 37%) 和 蝼 蛄 总 科 Gryllotalpoidea ( SD = 0.74%) 。详见表 1。
2.2.3 蛋白编码基因和 RNA 基因
在蛋白编码基因的密码子使用方面,大部分直翅目线粒体基因组中的 COX2、COX3、ND3、ND4L 和 Cytb 基因的起始密码子都遵循 ATN 模式,而在 COX1、ATP8、ND1、ND2、ND4、ND5 和 ND6 基因中则存在 TTG、GTG、CCG 和 ACC 等非标准起始密码子。在螽亚目昆虫中,Ruidocollaris obscura 和 Kuwayamaea brachyptera 的 ND2 基因起始密码子为 GTG[67]; Sinochlora retrolateralis 的 ND6 基因以 TTG 起始[66]; 蝗亚目中,Choroedocus capensis、Xenocatantops brachycerus 和 Stenocatantops splendens 的 COX1 基因起始密码子为 ACC[12],Gomphocerus sibiricus、Filchnerella helanshanensis 和 Asiotmethis zacharjini 的 COX1 基因起始密码子为 CCG,Filchnerella helanshanensis 的 ND6 基因起始密码子为 GTG[13]。与起始密码子不同,直翅目昆虫终止密码子使用较为保守,大多数为完整的三联体密码子 TAA 和 TAG,部分基因使用不完整的 TA/T。例如: 螽亚目昆虫中,Pseudophyllus titan 的 ND4 基因终止密码子为 T,Metrioptera ussuriana 的 COX1、COX2、 ND4、ND5 和 ATP6 基因终止密码子均为不完整的 T [65],Orophyllus sp.的 ND4 基因终止密码子为 TA[67]; 蝗亚目中,Euchorthippus unicolor 的 ND5 基因终止密码子为 TA[14],稻蝗属的 Oxya japonica japonica、Oxya hainanensis、Oxya agavisa robusta、Oxya chinensis 和 Oxya intricata 的 ND5 基因终止密码子均为 T [15]。不完整的终止密码子在其他后生动物的线粒体基因组中普遍存在,推测可能在转录后通过多聚腺苷酸作用形成完整的终止密码子进而完成转录终止。
在大部分直翅目昆虫线粒体基因组中 trnSAGN 基因缺少 DHU 臂,其余 tRNA 基因都能折叠成典型的三叶草二级结构。在形成二级结构时碱基之间常发生 G-U 错配,这在其他昆虫中也普遍存在。2 个 rRNA 基因的大小和位置相对保守,srRNA 位于 trnV 和控制区之间( 长度在 800 bp 左右) ,lrRNA 位于 trnL 和 trnV 之间( 长度在 1 300 bp 左右) ,rRNA 的二级结构保守,由多个茎环结构组成。——论文作者:刘 静1 ,边 迅2,3*
文章名称:直翅目昆虫线粒体基因组的特征及应用