概述

DNA甲基化(主要是CpG位点的5mC)是关键的表观遗传修饰,在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序(BS-seq)虽然能高精度检测甲基化,但读长短(通常<300bp),无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。

长读长测序技术(PacBio HiFi、Oxford Nanopore)的兴起,结合不依赖亚硫酸氢盐的甲基化检测方法,正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck(2025,Nature Reviews Genetics的综述,系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。


一、长读长甲基化检测技术

1. 两大技术平台的原理

Oxford Nanopore(纳米孔)

  • 原理:DNA分子通过纳米孔时,不同碱基(包括甲基化修饰的碱基)会产生不同的电流信号,通过机器学习模型从电流信号中直接推断甲基化状态
  • 优势
    • 读长极长(可达Mb级别),适合跨越重复序列和大型SV
    • 直接测序,无需PCR扩增,保留原始修饰信息
    • 实时测序,可快速获得结果
  • 常用工具
    • Guppy、Dorado(ONT官方碱基与修饰识别)
    • Megalodon(旧版本,已被Dorado替代)
    • Remora(高性能修饰识别模型)
    • DeepSignal、DeepMod、Nanopolish等第三方工具

PacBio HiFi(SMRT测序)

  • 原理:通过测序过程中聚合酶的动力学特征(脉冲宽度、脉冲间隔等)来推断甲基化状态
  • 优势
    • 高准确度(HiFi读长准确度>99.9%),适合同时检测遗传变异与甲基化
    • 读长适中(10-25kb),平衡了覆盖度与连续性
  • 常用工具
    • pb-CpG-tools(PacBio官方工具)
    • Primrose、DeepCpG等

2. 与传统方法的对比

特性 短读长BS-seq Nanopore甲基化 PacBio HiFi甲基化
读长 <300bp kb-Mb级 10-25kb
单倍型解析能力 差(需借助基因型) 优(直接通过长读长) 优(HiFi准确度高)
重复序列区域覆盖 中-优
成本 中-高
计算资源需求 中-高

二、计算分析流程与工具

1. 基础流程:从原始信号到甲基化位点

纳米孔数据处理

f a s t 5 D o r a d o / G u p p y + b e d M e t h y l
  • 关键步骤
    • 修饰检测:使用针对5mC(CpG)训练的模型,ONT提供多种预训练模型
    • 格式转换:从ModBAM到bedMethyl、bigWig等常用格式
    • 归一化:处理不同测序运行间的批次效应

PacBio HiFi数据处理

H i F i r e a d s p b - C p G - t o o l s

2. 单倍型特异性甲基化(Haplotype-specific methylation)

长读长的核心优势之一是可以直接将甲基化状态与单倍型关联,无需复杂的基因型推断。

  • 常用策略

    1. 先分型后甲基化:先用长读长进行单倍型分型(如Whatshap、Hifiasm),再将甲基化read分配到对应的单倍型
    2. 同步分型与甲基化:同时利用序列变异和甲基化信号进行分型(如Nanopore的一些联合分型工具)
  • 应用场景

    • 基因组印记(imprinting)区域的等位基因特异性甲基化
    • 肿瘤中杂合性缺失(LOH)区域的甲基化变化
    • X染色体失活的 Escapes 基因鉴定

3. 结构变异(SV)与甲基化的整合分析

短读长往往无法同时检测SV和其对甲基化的影响,长读长可以:

  • 检测SV断点处的甲基化变化:如转座子插入附近的甲基化沉默
  • 解析重复序列扩张区域的甲基化:如FMR1基因的CGG重复扩张与甲基化(脆性X综合征)
  • 工具
    • PBSV、Sniffles(SV检测)
    • 定制化流程:结合SV call和甲基化信号,可视化SV周围的甲基化谱

三、主要应用领域

1. 癌症表观基因组研究

  • 肿瘤异质性:利用长读长的单分子特性,解析肿瘤细胞亚群的甲基化异质性
  • 表观遗传沉默:检测抑癌基因启动子的高甲基化,同时结合SV判断是否存在等位基因丢失
  • 案例
    • 胶质母细胞瘤中EGFR扩增区域的甲基化变化
    • 白血病中融合基因断点附近的甲基化重排

2. 神经科学与发育生物学

  • 神经元甲基化多样性:神经元具有独特的甲基化特征(如非CG甲基化),长读长可以更好地解析这些复杂区域
  • 发育过程中的甲基化动态:如胚胎植入前的去甲基化与重新甲基化,长读长可以追踪单倍型的甲基化继承
  • 串联重复区域:如着丝粒、端粒附近的甲基化,这些区域短读长难以覆盖

3. 植物表观遗传学

  • 转座子甲基化:植物基因组中重复序列比例高,长读长可以完整解析转座子的甲基化状态及其对邻近基因的影响
  • 等位基因特异性甲基化:如杂交种中的亲本甲基化继承与杂种优势的关系
  • 案例:拟南芥、水稻等模式植物的甲基化组研究

4. 罕见病与表观遗传病

  • 印记疾病:如Prader-Willi/Angelman综合征(15q11-q13印记区域),长读长可以直接定位置信区间内的甲基化异常和结构变异
  • 重复序列扩张疾病:如肌萎缩侧索硬化症(ALS)的C9orf72重复扩张,长读长可以同时检测重复次数和甲基化状态

四、挑战与未来方向

1. 当前挑战

  • 成本:长读长测序成本仍高于短读长,限制了大群体样本的应用
  • 准确度:纳米孔的甲基化检测准确度在某些序列背景下仍有提升空间
  • 计算资源:处理大量原始信号数据需要较高的计算存储和算力
  • 标准:不同平台、不同工具的结果之间的一致性仍需标准化

2. 技术发展趋势

  • 更长的读长:Nanopore Ultra Long Reads(ULR)向更长、更准确的方向发展
  • 更高的通量:PacBio Revio、Nanopore PromethION等新平台持续提升通量
  • 多组学整合:同时检测DNA甲基化、染色质构象(长读长Hi-C)、RNA表达(长读长RNA-seq)
  • AI模型:更先进的深度学习模型用于从原始信号中提取更丰富的修饰信息(不仅是5mC,还有5hmC、6mA等)

3. 计算方法创新

  • 更高效的分型算法:结合序列变异和甲基化信号的联合分型
  • 单细胞长读长甲基化:目前单细胞长读长甲基化仍处于早期阶段,有很大发展空间
  • 可视化工具:专门针对长读长甲基化数据的可视化(如IGV的长读长甲基化track、NanoPack等)
  • 基准与评测:建立针对长读长甲基化的基准数据集(如GIAB的表观遗传基准)

总结

长读长测序正在将DNA甲基化研究从“位点水平”推向“单倍型、区域、全局水平”,解决了短读长时代无法解决的许多问题。随着技术进步和成本下降,长读长甲基化测序将在以下方面成为主流:

  1. 临床诊断:表观遗传病和癌症的辅助诊断
  2. 功能基因组:解析非编码区域、重复序列的表观调控
  3. 进化研究:种间和种内的表观遗传多样性

这篇综述非常系统地涵盖了技术原理、工具、应用和挑战,是进入该领域的极佳起点。


参考:Fu, Y., Timp, W., & Sedlazeck, F. J. (2025). Computational analysis of DNA methylation from long-read sequencing. Nature Reviews Genetics, 26, xxx–xxx. (doi:10.1038/s41576-025-00822-5)