长读长测序时代的DNA甲基化计算分析(2025 Nature Reviews Genetics综述)

概述 DNA甲基化(主要是CpG位点的5mC)是关键的表观遗传修饰,在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序(BS-seq)虽然能高精度检测甲基化,但读长短(通常<300bp),无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。 长读长测序技术(PacBio HiFi、Oxford Nanopore)的兴起,结合不依赖亚硫酸氢盐的甲基化检测方法,正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck(2025,Nature Reviews Genetics)的综述,系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。 一、长读长甲基化检测技术 1. 两大技术平台的原理 Oxford Nanopore(纳米孔) 原理:DNA分子通过纳米孔时,不同碱基(包括甲基化修饰的碱基)会产生不同的电流信号,通过机器学习模型从电流信号中直接推断甲基化状态 优势: 读长极长(可达Mb级别),适合跨越重复序列和大型SV 直接测序,无需PCR扩增,保留原始修饰信息 实时测序,可快速获得结果 常用工具: Guppy、Dorado(ONT官方碱基与修饰识别) Megalodon(旧版本,已被Dorado替代) Remora(高性能修饰识别模型) DeepSignal、DeepMod、Nanopolish等第三方工具 PacBio HiFi(SMRT测序) 原理:通过测序过程中聚合酶的动力学特征(脉冲宽度、脉冲间隔等)来推断甲基化状态 优势: 高准确度(HiFi读长准确度>99.9%),适合同时检测遗传变异与甲基化 读长适中(10-25kb),平衡了覆盖度与连续性 常用工具: pb-CpG-tools(PacBio官方工具) Primrose、DeepCpG等 2. 与传统方法的对比 特性 短读长BS-seq Nanopore甲基化 PacBio HiFi甲基化 读长 <300bp kb-Mb级 10-25kb 单倍型解析能力 差(需借助基因型) 优(直接通过长读长) 优(HiFi准确度高) 重复序列区域覆盖 差 优 中-优 成本 低 中-高 高 计算资源需求 低 中-高 中 二、计算分析流程与工具 1. 基础流程:从原始信号到甲基化位点 纳米孔数据处理 原 始 f a s t 5 信 号 → D o r a d o / G u p p y 碱 基 识 别 + 修 饰 检 测 → 甲 基 化 调 用 ( b e d M e t h y l 格 式 ) → 质 量 过 滤 与 归 一 化 关键步骤: 修饰检测:使用针对5mC(CpG)训练的模型,ONT提供多种预训练模型 格式转换:从ModBAM到bedMethyl、bigWig等常用格式 归一化:处理不同测序运行间的批次效应 PacBio HiFi数据处理 H i F i r e a d s → p b - C p G - t o o l s 甲 基 化 检 测 → 与 基 因 组 比 对 → 甲 基 化 水 平 定 量 2. 单倍型特异性甲基化(Haplotype-specific methylation) 长读长的核心优势之一是可以直接将甲基化状态与单倍型关联,无需复杂的基因型推断。 ...

2026年2月17日 · 2 分钟 · 266 字 · 都德