半翅目昆虫线粒体基因组学研究进展
发布时间:2022-04-06
摘要 线粒体基因组广泛应用于昆虫系统发育、分子进化、种群遗传学及谱系地理学等众多研究领域. 半翅目是昆虫纲外翅部中最大的一个目, 具有重要的经济意义. 目前, 已对 100 种半翅目昆虫进行了线粒体基因组测序, 其中 81 种在中国完成测序. 本文综述了半翅目昆虫线粒体基因学研究的已有成果, 比较分析了半翅目昆虫线粒体基因组的基本特征, 包括基因组大小、基因含量、基因重排、碱基组成、密码子使用、蛋白质编码基因的进化模式、RNA 基因及非编码区, 并系统总结了线粒体基因组数据在半翅目昆虫系统进化研究中的应用现状. 最后, 针对线粒体基因组的获得、注释和应用过程中存在的问题进行了讨论, 并提出了今后半翅目昆虫线粒体基因组学的研究重点.
关键词 半翅目, 异翅亚目, 线粒体基因组, 基因重排, 分子进化, 系统发育
半翅目(Hemiptera)属于节肢动物门(Arthropoda) 昆虫纲(Insecta), 是有翅亚纲(Pterygota)外翅总目 (Exopterygota)中最大的一个目. 全世界已知半翅目昆虫的数量超过 6 万种, 分属于约 133 个科[1]. 目前, 国际上普遍认同将过去的同翅目(Homoptera)与半翅目合并为一个广义的半翅目[2], 并分为头喙亚目(Auchenorrhyncha)、鞘喙亚目(Coleorrhyncha)、异翅亚目 (Heteroptera)和胸喙亚目(Sternorrhyncha)等 4 个亚目. 其中, 异翅亚目的种类最多, 已知 4 万余种[3]. 鞘喙亚目的种类最少, 仅有一个鞘喙蝽科(Peloridiidae)的 32 个种, 且所有种类均孑遗于澳大利亚大陆和南美大陆[4]. 半翅目昆虫具有显著的形态学特征, 如口器均为刺吸式、下唇特化成喙等. 半翅目昆虫的食性非常多样化, 其中大部分种类为植食性, 是重要的农牧业害虫, 如蚜虫(aphids)[5,6]和盲蝽蟓(mirids)[7,8]. 部分类群为肉食性, 如猎蝽(assassin bugs)、姬蝽(damsel bugs)和花蝽(flower bugs)等均为天敌昆虫, 是具有较好利用前景的生物防治资源. 此外, 还有极少数种类为寄生性昆虫, 如臭虫科(Cimicidae)以及引发被称为 “美洲新艾滋病”的查加斯病(Chagas disease)的锥蝽亚科(Triatominae)昆虫[9].
昆虫线粒体基因组是一个共价闭合的环状双链 DNA 分子, 长度通常为 15~18 kb, 并编码 37 个基因, 包括 13 个蛋白质编码基因, 2 个核糖体 RNA 基因 (rRNA)和 22 个转运基因 RNA(tRNA)[10,11]. 此外, 线粒体基因组通常还包括一段长度可变、在转录和复制过程中起调控作用的非编码区, 即线粒体控制区 (control region)[10,12,13]. 由于该段序列具有较高的 A+T 含量, 因此在昆虫线粒体基因组中, 控制区也常被称为 A+T 富集区. 相比单个基因或少数基因而言, 线粒体基因组作为一个完整的基因组, 对于构建昆虫的系统进化关系具有明显优势. 目前, 线粒体基因组因具有稳定的基因组成、相对保守排列顺序、母系遗传、极少发生重组等特点, 已被广泛应用于分子进化、系统发育、谱系遗传学及种群遗传结构等方面的研究[10,11,14,15]. 近年来, 随着分子生物学技术特别是新一代测序技术(next-generation sequencing, NGS)的发展, 越来越多的半翅目昆虫获得了线粒体基因组序列, 为从基因组水平上研究半翅目昆虫的系统进化关系提供了良好契机.
本文汇总了过去 15 年间半翅目昆虫线粒体基因组测序的成果, 比较分析了半翅目昆虫线粒体基因组的基本特征, 分析了目前线粒体基因组数据在半翅目昆虫系统进化研究中的应用现状, 并针对线粒体基因组的获得、注释和应用过程中存在的问题进行了讨论, 提出了今后半翅目昆虫线粒体基因组学的研究重点.
1 半翅目昆虫线粒体基因组测序现状
相比鳞翅目(Lepidoptera)、双翅目(Diptera)和直翅目(Orthoptera)等昆虫, 半翅目昆虫线粒体基因组的测序工作开展相对较晚, 直到 2001 年才获得了猎蝽(Triatoma dimidiata)的全线粒体基因组[16]. 自此, 更多的半翅目昆虫线粒体序列陆续发表. 尤其是 2008 年后, 随着中国科研人员的加入, 半翅目昆虫线粒体基因组测序进入了迸发阶段(图 1). 在 2008~ 2015 年的 8 年时间中, 共获得了 89 种昆虫的线粒体基因组, 其中 81 种在中国完成测序. 截止 2015 年 5 月, 美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)数据库共收录 100 种半翅目昆虫的线粒体基因组, 其中 83 个为全线粒体基因组, 17 个近似完整的线粒体基因组(表 1, 网络版附表 1).
在目前已测线粒体基因组的 100 种半翅目昆虫中 , 来自鞘喙亚目的物种最少 , 仅有鞘喙总科 (Peloridoidea)的 3 个种; 来自胸喙亚目的有 3 个总科 16 个物种; 来自头喙亚目的有 3 个总科 21 个物种; 其余 60 个线粒体基因组全部来自异翅亚目的 6 个次目. 其中包括蝽次目(Pentatomomorpha)的 5 个总科 28 个物种, 臭虫次目(Cimicomorpha)的 3 个总科 21 个种, 蝎蝽次目(Nepomorpha)的 5 个总科 7 个种, 黾蝽次目(Gerromorpha)的 1 个总科 2 个种, 而奇蝽次目 (Enicocephalomorpha)和细蝽次目(Leptopodomorpha) 均只有 1个种. 本实验室自 2012年以来, 陆续获得了斑须蝽(Dolycoris baccarum) [58]、枸杞木虱(Poratrioza sinica) [68]、横纹菜蝽(Eurydema gebleri) [59]、蛛蝽(Rubiconia intermedia) [59]、亚姬蝝蝽(Corizus tetraspilus) [53] 和地红蝽(Pyrrhocoris tibialis)等 6 种蝽次目昆虫的线粒体基因组(表 1, 网络版附表 1).
2 半翅目昆虫线粒体基因组的基本特征
2.1 基因组大小与基因含量
在目前已测全线粒体基因组的 83 种半翅目昆虫中, 最大和最小的线粒体基因组均来自粉虱次目 (Aleyrodomorpha)的粉虱科(Aleyrodidae), 其中粉虱 (Neomaskellia andropogonis)的线粒体基因组最小, 长度为 14496 bp, 而最大的是温室白粉虱(Trialeurodes vaporariorum), 长度为 18414 bp[27]. 不同物种间线粒体基因组的大小变异, 主要是由于控制区等非编码区长度差异所致. 例如, 粉虱的控制区大小仅为 96 bp, 而温室白粉虱长达 3725 bp[27]. 对于 17 个接近完整的半翅目昆虫线粒体基因组而言, 未能测序的位置大多位于控制区及其附近相关基因. 通常, 昆虫线粒体控制区具有 A+T 含量高、含有大量重复序列以及能形成稳定的二级结构等特征, 这些复杂的结构特征均增加了 PCR 扩增及测序难度[32,41,59,65].
相关知识推荐:基因多态性论文发表期刊推荐
与大多数后生动物线粒体基因组相似, 目前已测的半翅目昆虫全线粒体基因组均为一闭合环状双链 DNA 分子, 并编码 37 个基因, 即 13 个蛋白质编码基因、2 个 rRNA 基因和 22 个 tRNA 基因. 值得一提的是, 来自头喙亚目、胸喙亚目和异翅亚目的 13 种昆虫, 其线粒体基因含量发生了变异, 但仅限于 tRNA 基因的丢失或重复(表 2). 11 种昆虫的 tRNA 基因发生了缺失, 其中粉虱(N. andropogonis)缺失的 tRNA 基因最多, 共计 4 个[27]. 猎蝽(Brontostoma colossus) [43]和褐飞虱(Nilaparvata lugens)的 tRNA 基因产生了重复[23]. 棉蚜(Aphis gossypii)的 tRNA 基因数目虽未发生改变, 但丢失了 trnS2(UCN), 而具有两个 trnL2(UUR)[64].
2.2 基因重排
除鞘喙亚目保留了祖先的基因排序外, 其余 3 个亚目均发生了不同程度的基因重排, 共涉及 5 个总科的 15 个物种(图 2). 根据位置和转录方向, 线粒体基因重排可分为易位(transposition)和倒位(inversion), 当多个基因发生易位和(或)倒位时, 又称为基因洗牌 (gene shuffling)[69~71]. 分析发现, 异翅亚目的 5 个种和头喙亚目的 3 个种均发生了易位; 胸喙亚目的 7 个种中, 5 个种同时发生了易位和倒位, 可能还涉及基因洗牌. 按照重排涉及的基因进行分类, 异翅亚目 5 个种和胸喙亚目 2 个种的线粒体基因重排均仅涉及 tRNA 基因, 而头喙亚目 3 个种和胸喙亚目其余的 5 个种还发生蛋白质编码基因或 rRNA 基因的大片段重排(图 2).
目前, 对基因重排现象的解释主要有 4 种模型[69], 即复制-随机删除模型(duplication-random deletion)、复制-非随机丢失模型(duplicationnonrandom loss)、非同源性的基因组内重组(nonhomologous intragenome recombination)、非同源性的基因组间重组(nonhomologous intergenome recombination). 复制随机删除模型是指部分基因组序列在复制的过程中,首先通过滑链错配产生重复的基因, 然后随机删除多余的基因或将其转化为假基因. 相比较而言, 复制随机删除模型可以很好地解释基因易位、复制起始点附近产生的较小的非编码区、长度异质性、取代速率的极端变异和 tRNA 基因串联重复拷贝等现象[72,73]. 然而, 复制-随机删除模型无法合理地解释基因倒位现象, 而重组模型可以对此作出较好的解释. 在这些模型中, 复制-随机删除模型已经获得部分证据的支持, 但至今仍然没有一种完美的模型可以解释所有的重排现象. 因此, 对于高度重排的线粒体基因组往往需要多个模型共同解释. 例如, 对飞虱科(Delphacidae)发生的基因易位可以用复制删除模型解释[27], 而对粉虱科既发生易位又发生倒位的线粒体基因组需要复制-删除模型及重组模型共同解释.
2.3 碱基组成与密码子使用
与大多数昆虫相似, 已测的半翅目昆虫全线粒体基因组的碱基组成均强烈偏向 A 和 T(表 1). 其中, 粉虱(Aleurodicus dugesii)的 A+T 含量最高(86.33%), 而鞘喙蝽科的 Hemiodoecus leai 最低(68.42%). 对亚目、次目及总科的平均 AT 含量比较分析发现: (ⅰ) 4 个亚目中, 胸喙亚目的 AT 含量最高(80.97%), 头喙亚目的含量较高(79.69%), 其次为异翅亚目(74.60%), 而鞘喙亚目的含量最低(69.20%); (ⅱ) 胸喙亚目的 3 个总科中, 蚜总科(Aphidoidea)的 AT 含量最高 (84.36%), 而木虱总科(Psylloidea)的最低(71.99%); (ⅲ) 头喙亚目的 3 个总科中, 叶蝉总科(Cicadelloidea)的 AT 含量最高(78.52%), 而蜡蝉总科(Fulgoroidea)的最低(76.09%); (ⅳ) 异翅亚目的 6 个次目中, 奇蝽次目的 AT 含量最高(82.48%), 而蝎蝽次目的最低(73.67%); (ⅴ) 一般来说, 同一总科的物种间的碱基含量变异较小, 如蚜总科的 A+T 含量变异小(SD=0.47%). 但并非总是如此, 如粉虱科不同物种间 AT 含量差异较大(SD=5.37%).
一般情况下, 后生动物线粒体基因组正链的 AT偏斜为正值, GC-偏斜为负值[74]. 从亚目、次目、总科等 3 个水平上对半翅目昆虫全线粒体基因组的碱基组成比较分析发现(图 3): (ⅰ) 除胸喙亚目正链的 A 较 T略少(AT-偏斜=0.01)外, 其余3个亚目的碱基偏斜均符合后生动物线粒体基因组的普遍规律; (ⅱ) 头喙亚目的 AT-偏斜和 GC-偏斜均最为强烈, 异翅亚目次之, 而胸喙亚目正反链的碱基组成最为接近; (ⅲ) 胸喙亚目的 3 个总科中, 粉虱总科具有负的 AT-偏斜 (0.13)和正的 GC-偏斜(0.16), 其余 2 个总科的碱基偏斜符合普遍规律; (ⅳ) 头喙亚目的 3 个总科中, 蜡蝉总科的碱基组成偏斜最强(AT-偏斜=0.20, GC-偏斜 =0.21), 沫蝉总科次之(AT-偏 斜 =0.16, GC-偏 斜 =0.19), 而叶蝉总科最弱(AT-偏斜=0.07, GC-偏斜 =0.12); (ⅴ) 异翅亚目的 6 个次目中, 蝎蝽次目的偏斜最强(AT-skew=0.17, GC-skew=0.21), 奇蝽次目正反链的碱基组成最接近(AT-偏斜=0.07, GC-偏斜 =0.14); (ⅵ) 半翅目昆虫的 AT 含量与 AT-偏斜程度存在一定的相关性, 即 AT-偏斜严重的物种往往 A+T 含量相对较低, 这一现象在鳞翅目、等翅目(Isoptera) 和蜱螨(Acari)等节肢动物中也有报道[69,75,76].
分别统计 83 种半翅目昆虫线粒体基因组蛋白质编码基因的密码子使用情况, 计算 4 个亚目的平均相对同义密码子使用频率(relative synonymous codon usage, RSCU), 统计结果经汇总整理见图 4. 结果表明, (ⅰ) 在所有的 20 种密码子中, UUA(L)的相对同义密码子使用频率最高; (ⅱ) 赖氨酸对应 6 种密码子, 其中 UUA 的 RSCU 最高; (ⅲ) 半翅目昆虫线粒体密码子组成偏好 AT, 其表现为以 A 或 T 结尾的密码子数较多, GC 含量丰富的某些密码子未被使用; (ⅳ) 每一同义密码子的RSCU在半翅目4个亚目间无显著差异.
2.4 蛋白质编码基因及进化速率
除异翅亚目的 Kleidocerys resedae、Nerthra sp. 和Oncocephalus breviscutum 3个物种外, 半翅目昆虫 13 个线粒体蛋白质编码基因的 AT 含量总体上略低于整个基因组(表 1). 蛋白质编码基因的第 3 个密码子位置的 AT 含量远高于第 1, 2 密码子位置. 例如, 亚姬蝝蝽第 3 个密码子位置的 AT 含量高达 86.19%, 而第 1, 2 个密码子位置的 AT 含量分别为 70.34%和 67.46%. 在半翅目昆虫中, 多数蛋白质编码基因的起始密码子为 ATN, 但是发现部分物种的 cox1 和 nad1 两个基因以 TTG 和 GTG 作为起始密码子, 这种选择既可以减小基因间隔区, 同时又避免相邻基因发生重叠. 这些特殊的起始密码子在转录成为 mRNA 后经过 RNA 编辑转换成正常的起始密码子, 然后翻译成具有特殊功能的蛋白质[77]. 终止密码子既有完整的三联体密码子(TAG 和 TAA), 也有不完全的 T 或 TA. 不完全的终止密码子在后生动物线粒体基因组中很常见, 推测在转录后通过向 mRNA 的 3′端添加 “A”进行多聚腺苷酸化, 从而转化为完整的终止密码子 TAA 而完成转录终止[78].
对半翅目 4 个亚目线粒体基因组的蛋白质编码基因进化速率比较分析发现(图 5), atp8 的进化速率均最高. Zhang 等人[23]报道了褐飞虱的 atp8 基因仅有 99 bp, 同时发现半翅目的 atp8 基因长度变异比其他目的长度变异更大(99~228 bp). cox1 是线粒体基因组中进化速率较慢的, 这一观点在在半翅目线粒体中得到验证. 对 4 个亚目的比较发现, 相同的蛋白质编码基因在不同类群中存在显著的差异. 胸喙亚目的蛋白质编码基因进化速率较其他 3 个亚目快, 而异翅亚目相对较慢. 胸喙亚目的 atp8 和头喙亚目的 nad4L 的 Ka/Ks 值大于 1, 表明这两个基因可能受到正选择, 也可能由于选择松弛所致.
2.5 RNA 基因
后生动物线粒体 trnS1(AGN)通常由于缺失 DHU 臂而不具有经典的三叶草二级结构[10]. 已测的半翅目昆虫线粒体基因组中, trnS1 均缺少 DHU 臂. 此外, 在一些半翅目昆虫中, trnS1 的反密码子茎的长度由典型的 5 bp 变为 9 bp. 尽管这种现象是非常罕见的, 但在蝽总科(Pentatomoidea)等昆虫中均发现了此种情况[58,59]. 若将 9 bp 的反密码子茎变为典型的 5 bp, 这不仅导致反密码子茎存在较多碱基错配, 而且 DHU 臂仍然缺失. 因此, 推测 5 bp 的反密码子茎在蝽总科等半翅目昆虫的 trnS1 中是不存在的[59]. 然而, 这种错配可能是真实存在的, 因为不能排除通过转录后加工而获得正确碱基配对的可能性. 有关 trnS1 这种特殊的序列结构特点, 还有待进一步深入研究.
除 trnS1 外, 还有部分物种的部分 tRNA 也缺失 DHU 臂. 例如, 2 种飞虱的 trnS1 和 trnS2(UCN)均缺失 DHU 臂, 且 trnG 均缺失 T 臂[24]. 实际上, 对有些物种预测的 tRNA 基因, 其 DHU 臂比较短且存在错配, 这在热力学上是不稳定的, 暗示着这些 DHU 臂也可能不是真实存在的[59]. 对线虫(Caenorhabditis elegans) [79]和蜘蛛(Araneida) [80]的线粒体tRNA基因研究发现, 通过转录后编辑可使发生错配的碱基恢复正常配对, 从而推测线粒体 tRNA 基因缺失 DHU 臂或 T 臂对其功能的正常行使影响不大.
除结构变异外, 半翅目线粒体基因组的 tRNA 基因的反密码子也有变异, 但目前这种现象仅在盲蝽总科(Miroidea)的 trnK 和 trnS1 中有报道[81]. 在部分盲蝽蟓中, trnS1 的反密码子由 UCG 代替为 UCU, 而 trnK 的反密码子由 UUC 代替为 UUU. 这种反密码子的变异导致了密码子的再分配, AGG 由编码赖氨酸变为编码丝氨酸, 但并不是所有盲蝽总科的物种都发生了这种变异, 如草盲蝽属(Lygus)保留了昆虫传统的遗传密码. 这种反密码子变异导致的密码子再分配现象, 在其他节肢动物中也有报道[82,83].
一般来说, rrnL 的二级结构包含 6 个结构域, 但节肢动物普遍缺少第Ⅲ结构域. 因此半翅目昆虫线粒体 rrnL 的二级结构仅包括有Ⅰ, Ⅱ, Ⅳ, Ⅴ, Ⅵ等 5 个结构域, 通常约有 44 个茎环结构. 已有研究表明, 第Ⅳ结构域和第Ⅴ结构域比较保守, 第Ⅰ结构域的 H563, 第Ⅳ结构域的 H1775, 第Ⅴ结构域的 H2064, H2507, H2547, H2588 变异较小; 第Ⅰ结构域的 H183, 第Ⅱ结构域的 H687, H736, H837, H991, 第Ⅴ结构域的 H2007, H2347 变异较大[35,49,53,56,59,65,84]. 核糖体 rRNA 小亚基 rrnS 的二级结构通常包括 3 个结构域, 由约 26 个茎环结构组成. 研究发现, H1047, H1068, H1074, H1113 等茎环结构通常变异较大[35,49,53,56,59,65,84]. 但也有特殊情况存在, 例如, 在蝽总科和缘蝽总科中, H1047 的序列结构在科内高度保守[53,59]. 除此之外, 第Ⅰ结构域的 H47 在近缘物种中变异较大, 目前还未发现保守的结构[49,85]. 第Ⅱ结构域的 H673, 通常由一个短茎和一个较大的环构成, 但也有研究发现该结构为一个长茎和一个非常小的环[53,59,68].——论文作者:郭仲龙, 袁明龙*