长读长测序时代的DNA甲基化计算分析（2025 Nature Reviews Genetics综述）

概述

DNA甲基化（主要是CpG位点的5mC）是关键的表观遗传修饰，在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序（BS-seq）虽然能高精度检测甲基化，但读长短（通常<300bp），无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。

长读长测序技术（PacBio HiFi、Oxford Nanopore）的兴起，结合不依赖亚硫酸氢盐的甲基化检测方法，正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck（2025，Nature Reviews Genetics）的综述，系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。

一、长读长甲基化检测技术

1. 两大技术平台的原理

Oxford Nanopore（纳米孔）

原理：DNA分子通过纳米孔时，不同碱基（包括甲基化修饰的碱基）会产生不同的电流信号，通过机器学习模型从电流信号中直接推断甲基化状态
优势：
- 读长极长（可达Mb级别），适合跨越重复序列和大型SV
- 直接测序，无需PCR扩增，保留原始修饰信息
- 实时测序，可快速获得结果
常用工具：
- Guppy、Dorado（ONT官方碱基与修饰识别）
- Megalodon（旧版本，已被Dorado替代）
- Remora（高性能修饰识别模型）
- DeepSignal、DeepMod、Nanopolish等第三方工具

PacBio HiFi（SMRT测序）

原理：通过测序过程中聚合酶的动力学特征（脉冲宽度、脉冲间隔等）来推断甲基化状态
优势：
- 高准确度（HiFi读长准确度>99.9%），适合同时检测遗传变异与甲基化
- 读长适中（10-25kb），平衡了覆盖度与连续性
常用工具：
- pb-CpG-tools（PacBio官方工具）
- Primrose、DeepCpG等

2. 与传统方法的对比

特性	短读长BS-seq	Nanopore甲基化	PacBio HiFi甲基化
读长	<300bp	kb-Mb级	10-25kb
单倍型解析能力	差（需借助基因型）	优（直接通过长读长）	优（HiFi准确度高）
重复序列区域覆盖	差	优	中-优
成本	低	中-高	高
计算资源需求	低	中-高	中

二、计算分析流程与工具

1. 基础流程：从原始信号到甲基化位点

纳米孔数据处理

关键步骤：
- 修饰检测：使用针对5mC（CpG）训练的模型，ONT提供多种预训练模型
- 格式转换：从ModBAM到bedMethyl、bigWig等常用格式
- 归一化：处理不同测序运行间的批次效应

PacBio HiFi数据处理

2. 单倍型特异性甲基化（Haplotype-specific methylation）

长读长的核心优势之一是可以直接将甲基化状态与单倍型关联，无需复杂的基因型推断。

常用策略：
1. 先分型后甲基化：先用长读长进行单倍型分型（如Whatshap、Hifiasm），再将甲基化read分配到对应的单倍型
2. 同步分型与甲基化：同时利用序列变异和甲基化信号进行分型（如Nanopore的一些联合分型工具）
应用场景：
- 基因组印记（imprinting）区域的等位基因特异性甲基化
- 肿瘤中杂合性缺失（LOH）区域的甲基化变化
- X染色体失活的 Escapes 基因鉴定

3. 结构变异（SV）与甲基化的整合分析

短读长往往无法同时检测SV和其对甲基化的影响，长读长可以：

检测SV断点处的甲基化变化：如转座子插入附近的甲基化沉默
解析重复序列扩张区域的甲基化：如FMR1基因的CGG重复扩张与甲基化（脆性X综合征）
工具：
- PBSV、Sniffles（SV检测）
- 定制化流程：结合SV call和甲基化信号，可视化SV周围的甲基化谱

三、主要应用领域

1. 癌症表观基因组研究

肿瘤异质性：利用长读长的单分子特性，解析肿瘤细胞亚群的甲基化异质性
表观遗传沉默：检测抑癌基因启动子的高甲基化，同时结合SV判断是否存在等位基因丢失
案例：
- 胶质母细胞瘤中EGFR扩增区域的甲基化变化
- 白血病中融合基因断点附近的甲基化重排

2. 神经科学与发育生物学

神经元甲基化多样性：神经元具有独特的甲基化特征（如非CG甲基化），长读长可以更好地解析这些复杂区域
发育过程中的甲基化动态：如胚胎植入前的去甲基化与重新甲基化，长读长可以追踪单倍型的甲基化继承
串联重复区域：如着丝粒、端粒附近的甲基化，这些区域短读长难以覆盖

3. 植物表观遗传学

转座子甲基化：植物基因组中重复序列比例高，长读长可以完整解析转座子的甲基化状态及其对邻近基因的影响
等位基因特异性甲基化：如杂交种中的亲本甲基化继承与杂种优势的关系
案例：拟南芥、水稻等模式植物的甲基化组研究

4. 罕见病与表观遗传病

印记疾病：如Prader-Willi/Angelman综合征（15q11-q13印记区域），长读长可以直接定位置信区间内的甲基化异常和结构变异
重复序列扩张疾病：如肌萎缩侧索硬化症（ALS）的C9orf72重复扩张，长读长可以同时检测重复次数和甲基化状态

四、挑战与未来方向

1. 当前挑战

成本：长读长测序成本仍高于短读长，限制了大群体样本的应用
准确度：纳米孔的甲基化检测准确度在某些序列背景下仍有提升空间
计算资源：处理大量原始信号数据需要较高的计算存储和算力
标准：不同平台、不同工具的结果之间的一致性仍需标准化

2. 技术发展趋势

更长的读长：Nanopore Ultra Long Reads（ULR）向更长、更准确的方向发展
更高的通量：PacBio Revio、Nanopore PromethION等新平台持续提升通量
多组学整合：同时检测DNA甲基化、染色质构象（长读长Hi-C）、RNA表达（长读长RNA-seq）
AI模型：更先进的深度学习模型用于从原始信号中提取更丰富的修饰信息（不仅是5mC，还有5hmC、6mA等）

3. 计算方法创新

更高效的分型算法：结合序列变异和甲基化信号的联合分型
单细胞长读长甲基化：目前单细胞长读长甲基化仍处于早期阶段，有很大发展空间
可视化工具：专门针对长读长甲基化数据的可视化（如IGV的长读长甲基化track、NanoPack等）
基准与评测：建立针对长读长甲基化的基准数据集（如GIAB的表观遗传基准）

总结

长读长测序正在将DNA甲基化研究从“位点水平”推向“单倍型、区域、全局水平”，解决了短读长时代无法解决的许多问题。随着技术进步和成本下降，长读长甲基化测序将在以下方面成为主流：

临床诊断：表观遗传病和癌症的辅助诊断
功能基因组：解析非编码区域、重复序列的表观调控
进化研究：种间和种内的表观遗传多样性

这篇综述非常系统地涵盖了技术原理、工具、应用和挑战，是进入该领域的极佳起点。

参考：Fu, Y., Timp, W., & Sedlazeck, F. J. (2025). Computational analysis of DNA methylation from long-read sequencing. Nature Reviews Genetics, 26, xxx–xxx. (doi:10.1038/s41576-025-00822-5)

概述#

一、长读长甲基化检测技术#

1. 两大技术平台的原理#

Oxford Nanopore（纳米孔）#

PacBio HiFi（SMRT测序）#

2. 与传统方法的对比#

二、计算分析流程与工具#

1. 基础流程：从原始信号到甲基化位点#

纳米孔数据处理#

PacBio HiFi数据处理#

2. 单倍型特异性甲基化（Haplotype-specific methylation）#

3. 结构变异（SV）与甲基化的整合分析#

三、主要应用领域#

1. 癌症表观基因组研究#

2. 神经科学与发育生物学#

3. 植物表观遗传学#

4. 罕见病与表观遗传病#

四、挑战与未来方向#

1. 当前挑战#

2. 技术发展趋势#

3. 计算方法创新#

总结#

概述