TEL:400-017-9077
News & Center新闻中心

上海交通大学研究团队利用全外显子测序,深度解析四种捕获探针的性能比较

发布日期:2021-03-01

下一代测序(Next Generation Sequencing,NGS)具有高通量、敏感性和特异性等优势,已经成为当今基因组研究最重要的工具之一。相对于全基因组测序,靶向测序如全外显子测序,成本较低,具较高的测序深度和覆盖率,易于数据管理等优点,已成为基础研究和临床诊断中的常规技术。目前市面上已有的捕获测序商业平台,所使用的探针类型有单链DNA,单链RNA,双链DNA和双链RNA。近日,来自上海交通大学的研究团队针对这四种商业捕获测序平台进行了性能比较,借此帮助研究者和临床医生,可依据特定的应用,选择合适的平台。

研究团队选择了最典型和代表性的目标捕获测序—全外显子捕获测序,并选择了市面上应用广泛的四种商业平台。其中,SureSelect Human All Exonv7 (AgilentTechnologies) 的探针类型为单链RNA,xGEN Exome Research Panelv 1.0 (Integrated DNA Technologies) 为单链DNA,Human Core Exome (Twist Bioscience)为双链DNA,QuarXeq Human All Exon Probes1.0(DynegenBioscience)为双链RNA。

1、四种全外显子捕获平台的特征比较
表1反映了四种不同探针类型的全外显子捕获平台之间的差异。

表1  外显子捕获技术设计

1.jpg

ds:double stranded; ss: single stranded; NP: not provided

通过比较它们的特定覆盖区域,研究团队发现RNA探针平台覆盖了更多部分的外显子,而DNA探针平台—IDT和Twist主要集中在基因组易于捕获的区域(图1)。许多基因,如CDK11B、NBPF20和PLXNA4等的目标区域中,部分外显子区域没有被DNA探针覆盖到。

2.jpg

图1 四个平台的目标区域比较。对于 RefSeq,蓝色条框代表外显子区域;对于4种探针平台Bed文件,蓝色条框意味着该区域被探针所覆盖,没有蓝色条框则代表该探针未覆盖此区域。

2、四种探针平台的目标覆盖效率比较

研究团队将捕获效率作为一个新的参数,用于评估不同捕获平台之间的特异性和覆盖深度。捕获效率的计算公式如图2所示。

3.jpg

图2 捕获效率的计算公式 
当理论平均测序深度为150×时,四种捕获平台的mapping rate均超过99%。在实际平均深度(actual average depth)和中靶率(on target rate)上,四种捕获平台存在差异(图 3a)。单链DNA探针平台的on target rate为86%,其次是双链RNA探针平台(83%)。四种平台的均一度(uniformity)均超过95%,双链DNA探针平台的均一度最高,达到99.32%,同时复杂度(complexity)也位居首位(89.26%)。对四种平台分别计算捕获效率。IDT的单链DNA探针捕获平台实现了四种平台的最高捕获效率(71%),其次是Dynegen的双链RNA探针捕获平台(69%)(图3b)。

4.jpg
图3 四种平台目标覆盖效率

研究团队还分析了10×、20×、30×和50×深度覆盖下目标碱基的比例(图 4a)。在所有平台上20X以上覆盖度的碱基比例均超过95%。在30X以上覆盖度,DNA探针捕获平台的碱基比例要高于RNA平台。基于累积深度分布曲线(图 4 b),我们还发现,Dynegen的双链RNA捕获平台≥100×深度的碱基比例最高。5.jpg

图4 不同深度覆盖下的目标碱基的比例

3、GC含量对覆盖率的影响

为了研究GC偏好效应,我们评估了不同GC含量下的 reads count,并根据四个平台的深度分布绘制了GC含量图。归一化数据的结果显示DNA探针捕获平台的平均GC含量(IDT为50.46%,Twist为50.84%)高于RNA探针的平台(Agilent为48.46%,Dynegen为48.26%)。
6.jpg

图S3 四种平台针对深度分布的GC含量图

4、检测SNP和Indels的能力

全外显子重测序的目的是识别变异。为此研究团队系统地比较了四个外显子捕获平台中SNP和Indels的检测能力。当考虑在各自的目标区域中识别的变异时,检测到的SNP和Indels的总数与靶向的碱基数量之间存在明显的相关性。双链RNA探针,捕获目标区域最大的Dynegen平台,可检测到最高数量的SNP和Indels,其次是IDT和Agilent,如表2所示。双链DNA探针,同时捕获目标区域也最小的Twist平台,检测到的SNP和Indels最少。团队还将在研究中检测到的SNP与已知的NA12878和dbsnp138的SNP进行了比较。结果显示,四个平台目标区域的SNP与NA12878和dbsnp138的一致性均大于85%和95%。检测到最大数量的双链RNA探针平台Dynegen,与NA12878和dbsnp138SNP相一致。所有结果见表2。此外,目标区域上的Indels计数与探针总长度的比值,Twist明显低于其他平台。另外,团队还分析了杂合SNPs/Indels在不同GC含量下的频率分布,根据t分布计算杂合SNPs/Indels频率分布的离散程度,并利用95%置信区间的上下边界之间的差异来表示离散程度。结果发现IDT和Dynegen捕获平台具有杂合SNPs/Indels频率分布的最小离散程度。

7.jpg

表2 SNP和Indels检测
5、超深度测序比较RNA探针的性能

研究团队进一步比较了单链RNA与双链RNA探针在超深度测序中的捕获性能。两种探针类型在中靶率(on target rate)、大于1000×覆盖率(> 1000× coverage)和复杂度(complexity)进行了比较,结果如图9所示。在这三个方面,Dynegen平台的双链RNA探针性能均优于Agilent平台的单链RNA探针。根据结果,双链RNA探针可从极低样本投入量构建的文库中捕获更多的信息,并进行超深测序,这表明双链RNA探针可能提高液体活检应用中的突变检测灵敏度。

9.jpg

图9 单链RNA和双链RNA探针之间的ctDNA检测性能

讨论:研究团队从几个重要方面对四个具有不同类型捕获探针的全外显子捕获平台进行了比较研究,分析了各个全外显子panel的设计、目标覆盖效率、SNP/Indels检测中的GC偏差和灵敏度。团队还首次定义了捕获效率,该效率计算平均深度超过20%的目标区域数据占总数据的比例。因此,它更好地反映了每个平台对测序数据的有效利用,避免了因高中靶率但低覆盖度的数据带来的假阴性变异。

研究结果显示两个RNA探针平台,相比其他两个DNA探针平台,覆盖了所有四个数据库(RefSeq (35.76 MB), CCDS (32.28 MB), GENCODE.v24 (35.4 MB) , KnownGene (36.75 Mb))的更多部分,DNA探针捕获平台未覆盖难以捕获的区域。双链RNA探针平台(Dynegen)和单链DNA探针平台(IDT)在中靶率(on target rate)和捕获效率( capture efficiency)上达到最高。在最小深度为100×时,Dynegen的双链RNA探针平台捕获了四个平台中最大比例的目标区域。尽管IDT的DNA探针平台的捕获效率略高于Dynegen的RNA探针平台,考虑到各自覆盖的目标区域,和Agilent的单链RNA平台的捕获效率高于Twist的单链DNA平台,研究者推断RNA探针相比DNA探针具有更强的结合能力,以及单链或双链探针类型可能影响捕获性能。进一步比较在相同的客制化panel和超深测序下单双链RNA探针的捕获性能,结果表明,双链RNA探针的性能优于单链RNA,经超深度测序,能够改善突变检测灵敏度,特别是针对超低频突变的微量样品。

四个平台均表现出对非常低或高GC含量的偏好。DNA探针(单链DNA和双链DNA)探针在高GC含量区域表现得更好,RNA探针(单链RNA和双链RNA)的探针在高AT含量区域表现更好。这可能是由于GC含量高或低,降低了聚合酶链反应(PCR)扩增的效率和捕获探针杂交的效率,因此这些平台的不同性能可能是由于它们的探针类型不同所造成。未来,双链RNA和单链DNA的混合探针可用于目标捕获,以获得从高AT区到高GC区的潜在更好的捕获效果。

四个平台的灵敏度比较显示 Dynegen在NA12878样本中检测到最多的SNP和Indels。目标SNP与NA12878的一致性为97%,目标SNP与NA12878的一致性为87%。结果表明,Dynegen是识别新变种的更好选择。

NGS技术发展迅速,每个外显子捕获平台仍在更新。例如,双链RNA平台Dynegen最近发布了新版本的QuarXeq人类全外显子探针,它不仅包含了外显子区域,而且覆盖了整个基因组中的大多数SNP位点,同时进一步简化了文库制备的操作流程,大大减少了实验时间。本研究发现,RNA探针可能比DNA探针具有更强的结合力,由于单链或双链探针类型的不同,其结合力可能也不同。此外,DNA和RNA探针与具有不同特征的基因组区域的结合能力也不同。因此,在未来,双链RNA和单链DNA的混合探针可能被用于目标捕获,以获得潜在的更好的捕获效果。
       总结:双链RNA探针的目标捕获平台具有最平衡的捕获性能。特别是采用超深测序技术,双链RNA探针可以提高超低频突变检测的灵敏度。研究团队的结果还表明,RNA和DNA探针对不同基因组区域的结合能力不同,因此双链RNA和单链DNA的混合探针可能会提高目标捕获性能。
       原文完整出处:https://hereditasjournal.biomedcentral.com/track/pdf/10.1186/s41065-021-00171-3.pdf