针对家族遗传病高通量测序数据的个性化全基因组分析

时间：

　　摘要:遗传病是由于遗传物质的改变或者亲代所遗传的致病基因导致的，通过基因检测可以确诊遗传病.目前对于遗传病的治疗只有后天通过手术或者药物改善，但是这些方式无法从根本上治愈疾病，且可能存在伦理道德的问题.随着生物医疗技术的飞速发展，通过高通量测序(High-throughputsequencing)技术从患者的全基因组中找到致病变异的位置，用基因编辑(GeneEditor)技术修复变异基因从而治愈遗传病已经成为可能.但从庞大的基因组数据中找到遗传病的致病变异是一个繁琐复杂的问题.作者设计了一个针对遗传病样本全基因组数据的分析流程，该流程高效、针对性强、简单易于操作，得到的结果实用性强，将其应用于一例遗传病，迅速找到了这例遗传病的致病突变.该流程具有较强的通用性，可应用于大多数的遗传病诊断分析.

　　关键词:遗传病;全基因组分析;高通量测序;二代测序;DNA序列分析;变异

　　0引言
遗传病是由于遗传物质发生改变导致基因变异而引发的疾病，通常具有垂直传递和终身性的特征.因此，遗传病有由亲代向子代传递的特点，所以它会集中出现在有血缘关系的群体中.大部分遗传病为先天性遗传病，也存在少部分后天发病的情况.目前全世界已经发现的遗传病有5000多种，常见的有白化病、地中海贫血、苯丙酮尿症、抗维生素D佝偻病、进行性肌营养不良、软骨发育不全等[1].自20世纪初英国医生伽罗德从家族病史中发现的第一例遗传病(尿黑酸症)起[2]，人们就开始探究如何治疗遗传病.上个世纪70年代后期，随着遗传工程技术的不断更新[3]，就有科学家提出用基因治疗的方式来治疗遗传病，直到上世纪80年代初期，美国科学家M·克莱林将基因治疗的方法应用于β-地中海贫血患者，这是人类对于治愈遗传病的首次尝试.由于遗传病患者的遗传物质具有缺陷，基因治疗成为治愈遗传病的唯一可能[4-5].遗传病根据致病原因的不同可分为单基因遗传病、多基因遗传病、染色体病三类，由于变异的随机性，所以即使是表型相同的遗传病，其致病的原因都可能有较大的差异.人类的遗传物质由46条染色体组成，全基因组约有36亿个核苷酸[6].变异藏匿在人类庞大的遗传物质中，对于一个遗传病例，想要在遗传物质中找到致病原因，难度较大.目前用高通量测序获取遗传病患者的全基因组数据，分析测序数据寻找遗传病的致病变异，是全面排查遗传病致病变异的常用方法.分析测序数据需要运用生物信息学的专业知识，高通量测序的结果必须由专业的分析机构才能处理，其结果的可靠性不能保证.

　　在本文中我们设计了一个针对遗传病样本全基因组数据的分析流程，将其应用于一个中国先天性遗传病家族.通过二代测序技术得到家族中患病者和可能携带者的全基因组数据，用软件GenomeAnlysisToolkit(GATK)[7]、VCFtools和Perl(PracticalExtractionandReportLanguage)对样本中calling得到的SNP位点进行筛选过滤;用软件Burrows-WheelerAligner(BWA)、SAMtools、IntegrativeGenomicsViewer(IGV)[8-9]进行样本全基因组序列的可视化，最终找到了致病原因.该分析流程是对基因组数据初步的分析，但它对有效变异的排查很有针对性，可以作为模板，根据要求修改软件参数与筛选标准即可分析同类的遗传病样本.

　　1材料与方法

　　1.1材料信息

　　该家族中共有六代人(图1)，在家族中第II、IV、V、VI代都有男性患病者的出现，是典型的家族遗传病模式.我们获得了来自该家族的53个成员的血样.其中包括33名女性成员，无患病者出现;男性20名成员，有7名患病者.

　　1.2样本分组

　　共选择了八名家族成员的血样进行二代测序(30倍覆盖100GB数据[10])，获得他们的全基因组数据.包括三名家族中最年长的女性(因为她们的直系后代中出现了患者，这意味着她们很可能是致病基因的携带者):Ⅲ2、Ⅲ4、Ⅲ6;五名患病男性:Ⅳ15、Ⅳ31、V14、V16、VI11.

　　1.3方法

　　1.3.1GATK比对获取样本数据中的SNP

　　使用ILLumina测序平台的HiSeqX10测序系统对八个样本进行高通量测序[11].用GATK进行SNP的calling.

　　1.3.2VCFtools计算SNP频率

　　从千人基因组计划官网(https://www.internationalgenome.org/data)上下载所有样本全基因组的SNP数据，用VCFtools提取出中国北方人群(CHB，103人)和中国南方人群(CHS，105人)的基因型数据，计算全基因组的每个SNP在这两个群体中的突变频率用于后续分析(处理后发现两个人群的基因型数据没有较大差距，故只选择CHB的基因型数据进行比对:CHB.Allchr.Variant).

　　1.3.3筛选突变的流程

　　1.3.4IGV可视化

　　以上所有分析的参考基因组版本是GRCh37(hg19)，筛选流程通过Linux系统运行脚本实现

　　2结果

　　2.2SNP筛选结果

　　在第一步的分析结果中，我们从全基因组上筛选得到了9个符合条件的SNP，根据SNP的位置将位点匹配到基因的外显子上，找到了这些SNP所在的基因.通过查阅这些基因的信息，我们发现这些基因的功能与该家族的遗传病没有联系，所找到的突变的基因型和遗传病表型无相关性.

　　2.3IGV结果

　　如图5、图6所示，在图中的最上方是参照序列的位置;bancoverage行的高低指的是reads的覆盖强度，越高则覆盖率越高;ban行指的是具体每条reads在参照序列上的覆盖情况.该结果显示患者IV15、IV31、V14、V16、VI11于图示位置没有reads覆盖，而可能的携带者III2、III4、III6于同样的位置也存在reads覆盖明显降低的情况.意为8个家系成员在图示位置出现了变异，在全基因组的其他位置没有发现类似的情况，这个突变在患病者与可能携带者的全基因组中是唯一和一致的.

　　相关论文推荐：《基因组学与应用生物学》(双月刊)创刊于1982年，是由广西大学主办、公开发行的科技期刊。主要刊登：基因组学、生命科学、农学及医药领域等相关学科的学术论文;其特点是原创性与实用性相结合。内容涵盖：基因组学、遗传学、生化与分子生物学、应用生物学、病理学、医学科学、环境科学与生态学、实验技术与方法以及相关综述与专论等。

　　3讨论

　　通过观察遗传图谱中遗传病的分布发现，该家族中患病成员均为男性，且患病人数很少，猜测该家系遗传病的遗传方式很可能就是伴X染色体隐性遗传，但是不能排除常染色体遗传的可能，所以在编写脚本和callingSNP的过程中，我们将变异的检测范围设定为全基因组，筛选后找到的突变很有可能是在这个家系中致病的直接原因.我们根据孟德尔遗传定律设计分析流程，用Perl编写脚本筛选从全基因组中calling出来的SNP，发现筛选出的SNP与该家族遗传病无相关性.再进行第二步分析，将测序数据的reads与参照序列进行比对，用全基因组可视化软件(IGV)观察样本中reads在参照序列上的覆盖情况，最终发现于图4、图5处的突变，这个突变在所有样本的全基因组中是唯一和一致的，所以该位置的突变很有可能就是在家族中导致遗传病的直接原因.GATK在calling突变的过程中只能识别SNP或者较短的indel(插入/缺失;≤50bp)，而无法识别较长片段的SV(结构变异)，为该软件的一个缺陷，我们会继续改善[12].从最后找到突变的长短来看，因为该变异类型是SV，可以解释为什么在第一步分析中没有找到这个突变.第二步的可视化分析是对于测序数据中reads分布、覆盖率的观察，目的在于寻找可能存在的SV，但无法用它观察SNP和InDel.对于基因组中的SNP和InDel，GATK具有一定的敏感度和准确性，筛选条件可以将绝大多数对研究没有价值的变异过滤掉，是该流程最大的亮点.所以第一步的分析不可或缺，前后两步分析互补，可以检测到样本中可能致病的SNP、InDel、SV.

　　高通量测序的广泛应用给生物学领域的研究带来了更多选择[13]，测序数据就像是一片巨大的沙漠，如何方便、快速、准确地在其中挖掘到我们需要的“宝藏”是当下迫在眉睫的问题.如今很多课题组都已经借助高通量测序技术开展研究，由于高通量测序的数据是大量的100～300bp的reads，从这些数以千万计的reads中寻找信息需要用到许多软件、算法，分析过程中还可以选择不同的方法，因此数据分析的结果会有一定的出入，所以选择合适的分析方法是关键[14].本文设计并讨论了一个快速高效分析遗传病测序数据的方法流程.目前许多课题组将高通量测序数据交由测序公司分析，测序公司会提供高通量测序数据的分析方案，这种方案一般是全面系统的分析，对于全基因组的所有SNP、InDel、SV、CNV都会注释.但是，对于家族遗传病的分析，测序公司的分析方案不仅成本高，而且缺乏实用性，个性化的分析则更耗资不菲.

　　由于其分析的范围大，过程繁琐，所以耗时较长.分析的结果只是把庞大的测序数据呈现为数以万计的变异，结果的可靠性无法保证，并且这些变异大多对于我们的研究不具备价值.综上所述，公司分析结果的实用性十分有限.本文中所讨论的分析流程对遗传病的研究相对便捷，对于SNP、InDel，结合遗传病的遗传规律用Perl设计筛选条件，筛选后最终得到少量符合条件的变异.对于SV，我们采用IGV观察reads在参考序列分布情况的方法，观察是否有SV存在.尽管公司分析所得结果更为全面，但本文所设计的分析流程对于有效变异的排查简单、迅速、极具针对性，可得到实用性极强的数据，更适用于简单家族遗传病的研究.研究人员直接操作计算机分析，避免了由于对研究目的不明确而造成的分析误差.遗传病的致病变异可以造成明显表型、功能的缺陷，在遗传物质中留下了深深的痕迹，对于简单的家族遗传病，本文中所设计的分析流程足以从基因组中找到致病突变.

　　中国作为人口大国，有一个庞大的基因库，这也意味着遗传病种类较多.遗传物质与我们的生命息息相关，能够影响遗传物质并导致病变的因素有很多，其中遗传因素约占25%，这通过遗传检测完全可以避免.掌握遗传数据为我们带来了很多的好处，对正在兴起的精准医学有很大的推动[15]，个体的疾病预测、药物适用性分类、基因治疗等都需要基因组数据的支撑[16].对于群体研究来说，遗传数据对研究物种的适应性、物种的进化、基因的功能定位等都具有很大的帮助.高通量测序的普遍应用意味着大量基因组数据的产生[17]，如何从庞大的原始数据中快速、准确的找到想要的信息，是亟需解决也是我们正在解决的问题.相信随着计算机科学的发展，测序数据分析会更快更准确，为推动生命科学的发展贡献更多的力量.

　　4结论

　　针对使用高通量测序技术研究家族遗传病而产生的全基因组数据，我们设计了一个简单高效寻找致病变异的分析流程.基于致病基因的遗传方式符合孟德尔遗传定律，所以我们依据该规律设计筛选突变的流程，大大提高了分析结果的实用性.该流程针对性强，操作简易.从将其应用于家族遗传病分析而获得的实验结果来看，筛选出来致病变异所在的基因和该家族遗传病的相关性很强，我们已经在该变异的功能验证上取得了一定的成果，充分证明了该分析流程的可靠性.该流程的实用性较好，可应用于类似的家族遗传病研究.——论文作者：卞天豪，牛晓珂，石宏