长读长测序时代的DNA甲基化计算分析(2025 Nature Reviews Genetics综述)

概述 DNA甲基化(主要是CpG位点的5mC)是关键的表观遗传修饰,在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序(BS-seq)虽然能高精度检测甲基化,但读长短(通常<300bp),无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。 长读长测序技术(PacBio HiFi、Oxford Nanopore)的兴起,结合不依赖亚硫酸氢盐的甲基化检测方法,正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck(2025,Nature Reviews Genetics)的综述,系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。 一、长读长甲基化检测技术 1. 两大技术平台的原理 Oxford Nanopore(纳米孔) 原理:DNA分子通过纳米孔时,不同碱基(包括甲基化修饰的碱基)会产生不同的电流信号,通过机器学习模型从电流信号中直接推断甲基化状态 优势: 读长极长(可达Mb级别),适合跨越重复序列和大型SV 直接测序,无需PCR扩增,保留原始修饰信息 实时测序,可快速获得结果 常用工具: Guppy、Dorado(ONT官方碱基与修饰识别) Megalodon(旧版本,已被Dorado替代) Remora(高性能修饰识别模型) DeepSignal、DeepMod、Nanopolish等第三方工具 PacBio HiFi(SMRT测序) 原理:通过测序过程中聚合酶的动力学特征(脉冲宽度、脉冲间隔等)来推断甲基化状态 优势: 高准确度(HiFi读长准确度>99.9%),适合同时检测遗传变异与甲基化 读长适中(10-25kb),平衡了覆盖度与连续性 常用工具: pb-CpG-tools(PacBio官方工具) Primrose、DeepCpG等 2. 与传统方法的对比 特性 短读长BS-seq Nanopore甲基化 PacBio HiFi甲基化 读长 <300bp kb-Mb级 10-25kb 单倍型解析能力 差(需借助基因型) 优(直接通过长读长) 优(HiFi准确度高) 重复序列区域覆盖 差 优 中-优 成本 低 中-高 高 计算资源需求 低 中-高 中 二、计算分析流程与工具 1. 基础流程:从原始信号到甲基化位点 纳米孔数据处理 原 始 f a s t 5 信 号 → D o r a d o / G u p p y 碱 基 识 别 + 修 饰 检 测 → 甲 基 化 调 用 ( b e d M e t h y l 格 式 ) → 质 量 过 滤 与 归 一 化 关键步骤: 修饰检测:使用针对5mC(CpG)训练的模型,ONT提供多种预训练模型 格式转换:从ModBAM到bedMethyl、bigWig等常用格式 归一化:处理不同测序运行间的批次效应 PacBio HiFi数据处理 H i F i r e a d s → p b - C p G - t o o l s 甲 基 化 检 测 → 与 基 因 组 比 对 → 甲 基 化 水 平 定 量 2. 单倍型特异性甲基化(Haplotype-specific methylation) 长读长的核心优势之一是可以直接将甲基化状态与单倍型关联,无需复杂的基因型推断。 ...

2026年2月17日 · 2 分钟 · 266 字 · 都德

最近 CNS pangenome 论文总结(2024-2026)

1. Nature (2025): Leveraging a phased pangenome for haplotype design of hybrid potato 内容:构建了 31 个二倍体马铃薯(含 10 个野生种、19 个栽培种、2 个自交系)的 60 个单倍型的 phased pangenome graph 亮点: 用 PGGB 和 Minigraph-Cactus 构建了马铃薯图泛基因组 系统揭示了 SV 在进化和驯化中的起源与命运 设计了“理想马铃薯单倍型 (IPHs)”用于杂交育种 意义:为无性繁殖作物的基因组设计育种奠定理论基础 2. Nature (2025): A pangenome reference of wild and cultivated rice 内容:构建了 145 个染色体水平的水稻泛基因组(16 个栽培稻 + 129 个野生稻 O. rufipogon) 亮点: 支持“单次驯化起源”假说:所有亚洲栽培稻均源自 Or-IIIa(粳稻祖先) 精细解析了栽培稻与野生稻之间的基因流 挖掘了大量抗病/抗逆基因资源 意义:为水稻育种提供全面的野生种质遗传变异资源 3. Nature Genetics (2025): Super pangenome of Vitis empowers identification of downy mildew resistance genes for grapevine improvement 内容:构建了葡萄属(Vitis)的超级泛基因组 亮点: 覆盖整个葡萄属的综合基因组信息 成功挖掘了霜霉病(downy mildew)抗性基因 意义:为葡萄抗病育种提供直接靶点 4. Nature (2025): Pan-genome bridges wheat structural variations with habitat and breeding 内容:小麦泛基因组与 SV、生境、育种的关联研究 亮点: 揭示了小麦结构变异与生境适应及育种性状的关联 以 VRN-A1 基因为例展示了转录水平在冬性品种中的变化 引用:已被引 110 次,是近期小麦泛基因组领域的高影响力工作 5. 其他重要论文 Nature (2025): The phased pan-genome of tetraploid European potato(四倍体欧洲马铃薯 phased 泛基因组) Nature Plants (2025): Pan-genome analysis provides insights into legume evolution and breeding(豆科泛基因组与进化育种) Nature Genetics (2025): Pan-genome analysis reveals the evolution and diversity of Malus(苹果属泛基因组进化与多样性) Trends Microbiol (Cell, 2025): On the biological meaning of the population pangenome(群体泛基因组的生物学意义综述) Nature Reviews (2025): The role of pangenomics in orphan crop improvement(泛基因组在孤儿作物改良中的作用综述) 总体趋势:2024-2026 年 pangenome 领域的主流是 phased 图泛基因组 + 从种质资源到育种应用的闭环,重点作物包括马铃薯、水稻、小麦、葡萄、苹果、豆科等,核心方向是挖掘 SV、单倍型设计、野生种质利用。 ...

2026年2月14日 · 1 分钟 · 178 字 · 都德