DNA甲基化

引言 DNA甲基化是表观遗传调控的核心机制之一。在哺乳动物中，5-甲基胞嘧啶（5mC）主要发生在CpG二核苷酸上，它通过改变染色质结构、影响转录因子结合等方式，在不改变DNA序列的情况下调控基因表达。这篇综述（Smith等，2024，Nature Reviews Genetics）系统性地总结了DNA甲基化在哺乳动物整个生命周期中的动态变化、调控机制，以及在衰老和疾病中的作用。过去十年，这个领域从发现和基因组表征阶段，进入了更深层次的功能理解阶段——我们开始认识到这个古老的修饰如何被整合到强大的表观遗传密码中。一、体细胞DNA甲基化景观哺乳动物生命周期中的大多数细胞类型都保持着一致的双峰甲基化模式（bimodal methylation pattern），这主要由序列背景决定。我们将这种状态称为体细胞景观（somatic landscape），因为它在胚胎着床时出现，并代表了下游所有细胞和组织类型的共同特征。 1. CpG岛与甲基化状态 CpG岛（CGI）：定义：GC含量>50%，Obs/Exp CpG比>0.6，长度>200bp 约占基因组的1-2% 约50%的CGI与转录起始位点重叠，另外25%位于编码序列或基因体内正常状态：未甲基化甲基化分布：基因组大部分区域（重复序列、基因间区）：高度甲基化 CpG岛启动子：未甲基化（除非发生沉默）基因体（gene body）：中等程度甲基化 2. 高度甲基化结构域（HMDs）与部分甲基化结构域（PMDs）哺乳动物基因组是异质性的，存在密集的转录基因区域、相对孤立的发育基因，以及广阔的基因贫乏、富含重复元件的"沙漠"。高度甲基化结构域（HMDs）：特征：早期复制、高基因密度、低核纤层关联、高GC含量机制：活跃转录区域招募从头甲基转移酶部分甲基化结构域（PMDs）：特征：晚期复制、高核纤层关联、低基因密度、低GC含量大小：0.1-12 Mb 覆盖范围：约占哺乳动物基因组的50% 重叠区域：LOCKs（大的染色质K9修饰）、LADs（核纤层关联结构域）、B compartments 机制：复制偶联的甲基化消耗重要发现：PMDs在许多成年组织中都存在，在长期体外培养或某些癌症中甲基化水平会变得非常低。但人胚胎干细胞（ESCs）可以无限传代且快速分裂，却不表现出同样的增殖依赖性甲基化丢失——这表明表观基因组保真度本身是可以被调控的。 3. 管家基因与发育基因启动子管家基因的CGI启动子通常持续未甲基化，因为： CXXC结构域蛋白结合并保护未甲基化的CG-rich DNA H3K4甲基化拮抗DNMT3活性 R-loop（新生RNA与基因组DNA形成）进一步破坏DNMT相关复合物发育基因启动子则位于更大的GC-rich和CGI-rich区域，称为DNA甲基化谷（DMVs）或峡谷（canyons）：大小：5-50 kb 状态：在天然组织和细胞类型中大部分保持无甲基化调控：由Polycomb repressive complex 2（PRC2）沉积的高水平H3K27me3作为兼性异染色质被抑制特征：同时具有H3K27me3（抑制）和启动子H3K4me3（激活），即所谓的二价结构域（bivalent domains）功能：使祖细胞能够激活或失活相关的分化程序 DMV的保护机制： TET酶（TET1/2/3）与PRC1和PRC2共定位 TETs将5mC氧化为5hmC、5fC、5caC QSER1等互作伙伴通过CXXC结构域将TETs靶向DMVs KDM2B（H3K36特异性组蛋白去甲基化酶）也参与保护疾病中的DMV异常： DNMT3A的功能获得性突变导致Tatton-Brown-Rahman综合征（过度生长）或Heyn-Sproul-Jackson综合征（侏儒症） PWWP结构域突变导致DMV边界模糊，异常甲基化向内部扩散 TET三敲除的人ESCs会表现出DMV甲基化增加 4. 活跃的增强子元件在体细胞中，DNA甲基化的变化通常反映了转录因子与CpG贫乏的远端增强子的活跃结合。这些区域：平衡到中等水平的甲基化表现出低水平的、TET依赖性的5hmC富集指示DNMT介导和TET介导的周转的实质性程度例子： ...

概述 DNA甲基化（主要是CpG位点的5mC）是关键的表观遗传修饰，在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序（BS-seq）虽然能高精度检测甲基化，但读长短（通常<300bp），无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。长读长测序技术（PacBio HiFi、Oxford Nanopore）的兴起，结合不依赖亚硫酸氢盐的甲基化检测方法，正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck（2025，Nature Reviews Genetics）的综述，系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。一、长读长甲基化检测技术 1. 两大技术平台的原理 Oxford Nanopore（纳米孔）原理：DNA分子通过纳米孔时，不同碱基（包括甲基化修饰的碱基）会产生不同的电流信号，通过机器学习模型从电流信号中直接推断甲基化状态优势：读长极长（可达Mb级别），适合跨越重复序列和大型SV 直接测序，无需PCR扩增，保留原始修饰信息实时测序，可快速获得结果常用工具： Guppy、Dorado（ONT官方碱基与修饰识别） Megalodon（旧版本，已被Dorado替代） Remora（高性能修饰识别模型） DeepSignal、DeepMod、Nanopolish等第三方工具 PacBio HiFi（SMRT测序）原理：通过测序过程中聚合酶的动力学特征（脉冲宽度、脉冲间隔等）来推断甲基化状态优势：高准确度（HiFi读长准确度>99.9%），适合同时检测遗传变异与甲基化读长适中（10-25kb），平衡了覆盖度与连续性常用工具： pb-CpG-tools（PacBio官方工具） Primrose、DeepCpG等 2. 与传统方法的对比特性短读长BS-seq Nanopore甲基化 PacBio HiFi甲基化读长 <300bp kb-Mb级 10-25kb 单倍型解析能力差（需借助基因型）优（直接通过长读长）优（HiFi准确度高）重复序列区域覆盖差优中-优成本低中-高高计算资源需求低中-高中二、计算分析流程与工具 1. 基础流程：从原始信号到甲基化位点纳米孔数据处理原始 f a s t 5 信号 → D o r a d o / G u p p y 碱基识别 + 修饰检测 → 甲基化调用（ b e d M e t h y l 格式） → 质量过滤与归一化关键步骤：修饰检测：使用针对5mC（CpG）训练的模型，ONT提供多种预训练模型格式转换：从ModBAM到bedMethyl、bigWig等常用格式归一化：处理不同测序运行间的批次效应 PacBio HiFi数据处理 H i F i r e a d s → p b - C p G - t o o l s 甲基化检测 → 与基因组比对 → 甲基化水平定量 2. 单倍型特异性甲基化（Haplotype-specific methylation）长读长的核心优势之一是可以直接将甲基化状态与单倍型关联，无需复杂的基因型推断。 ...

DNA甲基化

DNA甲基化：哺乳动物发育与疾病中的表观遗传调控

长读长测序时代的DNA甲基化计算分析（2025 Nature Reviews Genetics综述）