学术资源

外显子组测序数据的短串联重复序列分析



        罕见遗传病是一类由单基因或多基因缺陷所导致的疾病,具有遗传性和临床复杂性。这类疾病的诊断和治疗,需要结合临床表现、家族史、基因检测等多种信息进行综合分析。然而,由于这些疾病的遗传模式和表现形式非常复杂很多患者往往需要经过多次检测才能得到准确的诊断结果

image.png 

        为了提高罕见遗传病的诊断效率和准确性,研究人员不断探索新的分析方法和工具。其中,利用短串联重复序列(STR)进行分析是其中一种较为有效的方法。短串联重复序列(Short Tandem Repeat,STR)是一种重复出现的DNA序列,通常由2到13个碱基组成。这些序列通常位于基因组的非编码区域,但也可以在编码区域中发现,这些序列在不同个体之间存在差异,因此可以用来寻找与疾病相关的变异。

 

在本文中,研究人员对2,867个运动障碍患者38,095个外显子中短串联重复序列进行了系统分析并发现这种方法可以提高诊断效果

 

下面着重介绍本次研究方法


 

1.工具选择

        在研究中,考虑了三种不同的短串联重复序列(STR)检测工具:

        ◈ STRetch;

        ◈ ExpansionHunter;

        ◈ GangSTR。

        在这项研究中,比较了三种不同的方法(ExpansionHunter、GangSTR和STRetch)在检测致病性重复扩增等位基因方面的表现。结果显示,ExpansionHunter在已知的11个致病性重复扩增等位基因中检测到了10个(91%),比GangSTR(73%)STRetch(18%)的表现更好。进一步验证了ExpansionHunter在检测异常STR方面的灵敏度和特异性,并决定在我们的研究中使用ExpansionHunter

 

2.STR位点选择

        研究中选择了24个已知的致病性STR位点。经过运行ExpansionHunter对验证队列进行分析后,除去没有测序覆盖的位点(n = 5),最终得到了19个感兴趣的STR位点

 

 

3.样本挑选

        研究分析了运动障碍队列和诊断外显子测序(ES)队列*两个队列的ES数据,超过95%的样本在目标区域上至少有75x的中位数覆盖率

        *运动障碍队列:包含2,867名患有运动障碍的患者,仅考虑与运动障碍相关的基因中的STR位点;

        诊断ES队列:包括患者和非患者在内的38,095个匿名样本,使用了所有被选择的感兴趣的19个STR位点。

 

 

4.队列分析

        将每个扩增位点的扩增数与该位点特定的扩增阈值进行比较。基因型被分为三个不同的范围:

        ◈ 正常范围;

        ◈ 灰区*范围;

        ◈ 致病性范围。

        *灰区定义为不确定是否存在实际扩增、是否致病或是否存在不完全穿透。

 

 

5.STR确认

        对于超过灰区阈值的调用结果,使用GraphAlignmentViewer工具进行手动修正,主要考虑测序覆盖、读取映射质量以及特定重复结构的特殊情况。除了TCF4基因中的扩增的等位基因以外我们对所有可能的异常扩增等位基因通过PCR和GeneScan片段长度分析来进行验证

        对于DMPKCNBP基因,按照文献建议进行了RP-PCR验证。

 

6.患者遗传诊断

        对于在运动障碍队列中确认的扩增等位基因,临床实验室遗传学家将根据患者的临床描述与OMIM表型进行比较,以确定遗传病变与患者症状之间的关联。

 

 

下面来介绍一下分析结果

 

        1.展示的是我们对两个外显子测序(ES)样本队列使用ExpansionHunter进行了短串联重复(STR)大小检测,并确认了超过阈值的等位基因(图1)。其中蓝色点为正常范围,黄色点为灰区范围,红色点为致病性范围。

image.png 

图1

a. 在2867个运动障碍患者样本中,我们分析了与运动障碍相关的基因,并记录了它们的等位基因大小;

b. 我们对全体38095个ES样本进行了感兴趣位点的等位基因大小分析,在对异常STR长度检测进行优化后,我们系统地分析了完整的诊断性ES队列;


        2.生信分析出的STR总数及经过验证或与临床诊断相关的STR数(图2)。

image.png 

图2

d. 2867运动障碍队列中每个基因的验证率;

e. 所有38095个临床ES样本中每个基因的验证率。


        3.运动障碍队列中有88人(占总人数的3.0%)存在91个异常的STR扩增等位基因。手动筛选后剩下38个可能具有异常STR长度的等位基因

        对这38个可能存在异常重复扩展的样本进行了PCR和/或RP-PCR技术的验证,结果发现其中13个样本(验证率为34%)存在异常扩增等位基因,最后有7例由临床确认诊断。

image.png 

图3.分析2867名运动障碍患者ES数据的工作流程

每个步骤都显示在顶部,并显示了该步骤后剩余的STR扩展等位基因数量。底部显示了三个总结百分比,用于说明每个步骤的结果。


        4.在38,095个ES样本中,本研究发现了1,130个异常扩增等位基因,分布在1,117个不同的样本中(占38,095的2.9%)。经手动筛选后,在167个不同的样本中发现了167个可能的异常扩增等位基因(占38,095的0.4%)。通过PCR和/或RP-PCR验证,确认了93个异常扩增等位基因的存在56%)。在这93个确认的扩增等位基因中,有48个超过了致病重复阈值,而45个处于灰区(前突变区)。

 

        与诊断ES队列相比,该研究在运动障碍队列中检测到的异常扩增等位基因的患病率更高(分别为0.5%0.2%)。这可能是因为ES队列还包含未受影响的个体(例如父母)。此外,STR在运动障碍(主要是脊髓小脑性共济失调)病因中起着重要作用,因此运动障碍队列可能富集了STR扩增。

 

 

总 结

        本研究对大规模临床外显子组测序数据的STR进行了系统分析,使用ExpansionHunter获得了较好的诊断结果,增加一定的手动筛选可明显降低假阳性率。在未来,增加目标区域的测序数据覆盖情况评估可能减少手动筛选步骤的工作量。这意味着可以更加可靠地检测出与遗传疾病有关的异常STR长度,并减少错误的诊断结果。

        该研究为在临床外显子组测序中实施STR分析提供了指导。研究结果表明,系统性的STR评估可能会使外显子组测序的诊断率额外提高0.2%研究者建议将STR评估作为遗传检测实验室外显子组测序解读的常规部分。

 


参考文

van der Sanden, B.P.G.H., Corominas, J., de Groot, M. et al. Systematic analysis of short tandem repeats in 38,095 exomes provides an additional diagnostic yield. Genet Med 23, 1569–1573 (2021).