学术资源

长读长测序在孟德尔遗传学中的应用

微信图片_20231128104745.jpg

微信图片_20231129155712.jpg


       二代测序(NGS)技术已经在临床实践中得到广泛的应用,包括外显子组测序(ES)和全基因组测序(WGS);但是大约一半的孟德尔遗传病患者在经过完整的临床评估后仍未得到精确的分子诊断,这可能与基因-表型关联度不完整以及测技术的局限性有关,例如短读长测序(SRS)不能准确的对重复序列、SVs、高GC或AT序列等进行检测。长读长测序(LRS)作为最新一代的测序技术应运而生,可弥补SRS测序盲区,发现更多未知变异的同时还可以直接检测表观修饰,如甲基化等。

 

一、长读长测序(LRS)技术

       目前市场上主要有2种长读长测序(LRS)技术平台:PacBio and ONT(图1,表1)。


 图片1.jpg

图1.PacBio and ONT文库制备及测序工作流程图


       【PacBio】PacBio测序技术也叫单分子实时(single-molecule real-time ,SMRT)测序技术,主要依赖于DNA聚合酶与零模波导孔(zero-mode waveguide,ZMW) ;PacBio提供CLR(continuous long-read)和CCS(circular consensus sequencing)/HiFi(high-fidelity)2种测序模式:采用CLR测序模式时,测序长度可以达到30kbp及以上,但DNA聚合酶只通过DNA分子1次,测序精确度仅约85%-92%;采用CCS/ HiFi测序模式时, 测序平均长度缩短至10-30kbp,DNA聚合酶可多次经过环化DNA分子以消除测序过程中产生的随机碱基错配,精确度可高于99.9%。

       【ONT】ONT与其它测序技术最大的不同是不依赖于DNA聚合酶,而是依赖解旋酶使DNA双链打开,单链DNA分子或者RNA分子不同碱基通过纳米孔时会产生不同的电信号从而达到测序的目的;其测序的速度和精确度取决于客户选择的测序模式:fast(85–92%)、high accuracysuperior(92-96%)


 图片2.jpg

表1.PacBio and ONT测序技术对比表 



二、长读长靶向测序(T-LRS)方法

       ①PCR-Based 靶向富集

       通过PCR扩增富集的方式会丢失原始DNA拥有的甲基化信息,同时超长片段的扩增也存在一定的难度;

 

       ②杂交捕获靶向富集

       DNA分子首先被剪切到需要的片段大小,再通过杂交捕获的方式富集目标区域;该方法同样需要PCR扩增目标区域以达到文库制备所需要DNA量,甲基化信号丢失的同时还存在扩增偏好的问题;

 

       ③CRISPR/Cas9-based靶向富集

       设计特异性gRNA引导Cas9酶切相应的位点,同时使连接接头只连接特定的去磷酸化位点,难点在于gRNA的设计;

 

       ④Adaptive sampling

       自适应抽样方式是ONT平台特有的富集方式,可以通过软件设计控制纳米孔选择目标片段测序,但会降低测序效率。

 

三、长读长测序(LRS)DNA/RNA质量要求

       与短读长测序(SRS)不同的是,LRS要求高分子量(HMW)DNA;同时,LRS测序平台也可以进行转录组测序(表2)。


 微信图片_20231129101126.jpg

表2.PacBio and ONT测序DNA/RNA质量要求表


四、长读长测序数据分析

       基于LRS,目前有两种基本的方法来鉴定基因变异(图2):

       【Read mapping】根据参考基因组序列比对拼接序列,是最直接的方法,由于LRS的reads通常大于10kbp,能大大提高SVs检测的灵敏度。例如,LRS研究报道每个个体基因组的SVs大于20000个,而通过SRS检测的结果仅报道有2100-2500 SVs(BLASR 、MHAP、NGMLR、Minimap2、WhatsHap 、DeepVariant、Sniffles、PBSV 、 Phased-SV 、CuteSV);

       【De novo genome assembly】与SRS不同,更长的reads使基于装配发现基因变异成为可能。长reads数据在理论上可以完成基因组从头组装来确定2个完整或接近完整的单倍型端粒-端粒(T2T) DNA序列(HiCanu、Peregrine、wtdbg2、Flye、Shasta、hifiasm、 Verkko);


图片3.jpg

图2.基因变异的Read mapping vs de novo基因组组装


       长读长测序(LRS)除了增加检测变异的灵敏度以外,还可以直接确定原始DNA的甲基化等表观修饰(图3)。

 图片4.jpg

图3.XYLT1基因5′-UTR的致病性GGC重复扩展

XYLT1基因的5′-UTR区存在GGC三碱基重复序列,GGC重复数扩展导致UTR以及周围序列超甲基化(红色)。



五、长读长测序(LRS)在人类遗传病检测的应用

       LRS技术属于长片段测序技术,一般大于10kbp,如ONT还可以达到Mb级别,可以解决目前SRS技术很难或者无法解决的测序盲区。

       案例一:PacBio平台


c.jpg

       应用PacBio HiFi平台在Dravet综合征的同卵双胞胎患者中发现一段12kbp de novo insertion,显示CPNE9BRPF1基因不完整(经PCR证实);BRPF1基因的断裂是智力障碍相关Dravet综合征的致病原因,LRS可将其断点定位于一段(TAn简单重复序列,但SRS ES检测结果显示阴性,未能找到患者致病机制。

 

       案例二:ONT平台


d.jpg


       应用ONT平台发现的一段基因TMEM231与其假基因TMEM231P1之间的基因转换,这种变异无法通过SRS技术进行准确定位:

       LRS在基因TMEM231反义链内含子5剪接供体位点发现一种可能致病的SNVG,红色);在另一条同源染色体上发现4个错义SNVG,红色;A,绿色;C,蓝色;T,黄色),而SRS技术直接将这4个错义SNV定位于假基因TMEM231P1


 

       本文概述了LRS技术(PacBio和ONT)在临床研究和人类孟德尔遗传病的应用和优势。PacBio和ONT为人基因组变异的检测提供给了一个更完善的技术平台:完成了第一个完整的人基因组序列组装→SVs的检出率提高了3倍→转录组RNA测序更完整→直接读取人基因组表观修饰。

       PacBio提供了比SRS更高的测序精确度,而ONT提供更长的读长(高达20Mbp),快速检测和直接RNA测序。