概述
DNA甲基化(主要是CpG位点的5mC)是关键的表观遗传修饰,在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序(BS-seq)虽然能高精度检测甲基化,但读长短(通常<300bp),无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。
长读长测序技术(PacBio HiFi、Oxford Nanopore)的兴起,结合不依赖亚硫酸氢盐的甲基化检测方法,正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck(2025,Nature Reviews Genetics)的综述,系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。
一、长读长甲基化检测技术
1. 两大技术平台的原理
Oxford Nanopore(纳米孔)
- 原理:DNA分子通过纳米孔时,不同碱基(包括甲基化修饰的碱基)会产生不同的电流信号,通过机器学习模型从电流信号中直接推断甲基化状态
- 优势:
- 读长极长(可达Mb级别),适合跨越重复序列和大型SV
- 直接测序,无需PCR扩增,保留原始修饰信息
- 实时测序,可快速获得结果
- 常用工具:
- Guppy、Dorado(ONT官方碱基与修饰识别)
- Megalodon(旧版本,已被Dorado替代)
- Remora(高性能修饰识别模型)
- DeepSignal、DeepMod、Nanopolish等第三方工具
PacBio HiFi(SMRT测序)
- 原理:通过测序过程中聚合酶的动力学特征(脉冲宽度、脉冲间隔等)来推断甲基化状态
- 优势:
- 高准确度(HiFi读长准确度>99.9%),适合同时检测遗传变异与甲基化
- 读长适中(10-25kb),平衡了覆盖度与连续性
- 常用工具:
- pb-CpG-tools(PacBio官方工具)
- Primrose、DeepCpG等
2. 与传统方法的对比
| 特性 | 短读长BS-seq | Nanopore甲基化 | PacBio HiFi甲基化 |
|---|---|---|---|
| 读长 | <300bp | kb-Mb级 | 10-25kb |
| 单倍型解析能力 | 差(需借助基因型) | 优(直接通过长读长) | 优(HiFi准确度高) |
| 重复序列区域覆盖 | 差 | 优 | 中-优 |
| 成本 | 低 | 中-高 | 高 |
| 计算资源需求 | 低 | 中-高 | 中 |
二、计算分析流程与工具
1. 基础流程:从原始信号到甲基化位点
纳米孔数据处理
- 关键步骤:
- 修饰检测:使用针对5mC(CpG)训练的模型,ONT提供多种预训练模型
- 格式转换:从ModBAM到bedMethyl、bigWig等常用格式
- 归一化:处理不同测序运行间的批次效应
PacBio HiFi数据处理
2. 单倍型特异性甲基化(Haplotype-specific methylation)
长读长的核心优势之一是可以直接将甲基化状态与单倍型关联,无需复杂的基因型推断。
-
常用策略:
- 先分型后甲基化:先用长读长进行单倍型分型(如Whatshap、Hifiasm),再将甲基化read分配到对应的单倍型
- 同步分型与甲基化:同时利用序列变异和甲基化信号进行分型(如Nanopore的一些联合分型工具)
-
应用场景:
- 基因组印记(imprinting)区域的等位基因特异性甲基化
- 肿瘤中杂合性缺失(LOH)区域的甲基化变化
- X染色体失活的 Escapes 基因鉴定
3. 结构变异(SV)与甲基化的整合分析
短读长往往无法同时检测SV和其对甲基化的影响,长读长可以:
- 检测SV断点处的甲基化变化:如转座子插入附近的甲基化沉默
- 解析重复序列扩张区域的甲基化:如FMR1基因的CGG重复扩张与甲基化(脆性X综合征)
- 工具:
- PBSV、Sniffles(SV检测)
- 定制化流程:结合SV call和甲基化信号,可视化SV周围的甲基化谱
三、主要应用领域
1. 癌症表观基因组研究
- 肿瘤异质性:利用长读长的单分子特性,解析肿瘤细胞亚群的甲基化异质性
- 表观遗传沉默:检测抑癌基因启动子的高甲基化,同时结合SV判断是否存在等位基因丢失
- 案例:
- 胶质母细胞瘤中EGFR扩增区域的甲基化变化
- 白血病中融合基因断点附近的甲基化重排
2. 神经科学与发育生物学
- 神经元甲基化多样性:神经元具有独特的甲基化特征(如非CG甲基化),长读长可以更好地解析这些复杂区域
- 发育过程中的甲基化动态:如胚胎植入前的去甲基化与重新甲基化,长读长可以追踪单倍型的甲基化继承
- 串联重复区域:如着丝粒、端粒附近的甲基化,这些区域短读长难以覆盖
3. 植物表观遗传学
- 转座子甲基化:植物基因组中重复序列比例高,长读长可以完整解析转座子的甲基化状态及其对邻近基因的影响
- 等位基因特异性甲基化:如杂交种中的亲本甲基化继承与杂种优势的关系
- 案例:拟南芥、水稻等模式植物的甲基化组研究
4. 罕见病与表观遗传病
- 印记疾病:如Prader-Willi/Angelman综合征(15q11-q13印记区域),长读长可以直接定位置信区间内的甲基化异常和结构变异
- 重复序列扩张疾病:如肌萎缩侧索硬化症(ALS)的C9orf72重复扩张,长读长可以同时检测重复次数和甲基化状态
四、挑战与未来方向
1. 当前挑战
- 成本:长读长测序成本仍高于短读长,限制了大群体样本的应用
- 准确度:纳米孔的甲基化检测准确度在某些序列背景下仍有提升空间
- 计算资源:处理大量原始信号数据需要较高的计算存储和算力
- 标准:不同平台、不同工具的结果之间的一致性仍需标准化
2. 技术发展趋势
- 更长的读长:Nanopore Ultra Long Reads(ULR)向更长、更准确的方向发展
- 更高的通量:PacBio Revio、Nanopore PromethION等新平台持续提升通量
- 多组学整合:同时检测DNA甲基化、染色质构象(长读长Hi-C)、RNA表达(长读长RNA-seq)
- AI模型:更先进的深度学习模型用于从原始信号中提取更丰富的修饰信息(不仅是5mC,还有5hmC、6mA等)
3. 计算方法创新
- 更高效的分型算法:结合序列变异和甲基化信号的联合分型
- 单细胞长读长甲基化:目前单细胞长读长甲基化仍处于早期阶段,有很大发展空间
- 可视化工具:专门针对长读长甲基化数据的可视化(如IGV的长读长甲基化track、NanoPack等)
- 基准与评测:建立针对长读长甲基化的基准数据集(如GIAB的表观遗传基准)
总结
长读长测序正在将DNA甲基化研究从“位点水平”推向“单倍型、区域、全局水平”,解决了短读长时代无法解决的许多问题。随着技术进步和成本下降,长读长甲基化测序将在以下方面成为主流:
- 临床诊断:表观遗传病和癌症的辅助诊断
- 功能基因组:解析非编码区域、重复序列的表观调控
- 进化研究:种间和种内的表观遗传多样性
这篇综述非常系统地涵盖了技术原理、工具、应用和挑战,是进入该领域的极佳起点。
参考:Fu, Y., Timp, W., & Sedlazeck, F. J. (2025). Computational analysis of DNA methylation from long-read sequencing. Nature Reviews Genetics, 26, xxx–xxx. (doi:10.1038/s41576-025-00822-5)