都德的博客

DNA甲基化：哺乳动物发育与疾病中的表观遗传调控

引言 DNA甲基化是表观遗传调控的核心机制之一。在哺乳动物中，5-甲基胞嘧啶（5mC）主要发生在CpG二核苷酸上，它通过改变染色质结构、影响转录因子结合等方式，在不改变DNA序列的情况下调控基因表达。这篇综述（Smith等，2024，Nature Reviews Genetics）系统性地总结了DNA甲基化在哺乳动物整个生命周期中的动态变化、调控机制，以及在衰老和疾病中的作用。过去十年，这个领域从发现和基因组表征阶段，进入了更深层次的功能理解阶段——我们开始认识到这个古老的修饰如何被整合到强大的表观遗传密码中。一、体细胞DNA甲基化景观哺乳动物生命周期中的大多数细胞类型都保持着一致的双峰甲基化模式（bimodal methylation pattern），这主要由序列背景决定。我们将这种状态称为体细胞景观（somatic landscape），因为它在胚胎着床时出现，并代表了下游所有细胞和组织类型的共同特征。 1. CpG岛与甲基化状态 CpG岛（CGI）：定义：GC含量>50%，Obs/Exp CpG比>0.6，长度>200bp 约占基因组的1-2% 约50%的CGI与转录起始位点重叠，另外25%位于编码序列或基因体内正常状态：未甲基化甲基化分布：基因组大部分区域（重复序列、基因间区）：高度甲基化 CpG岛启动子：未甲基化（除非发生沉默）基因体（gene body）：中等程度甲基化 2. 高度甲基化结构域（HMDs）与部分甲基化结构域（PMDs）哺乳动物基因组是异质性的，存在密集的转录基因区域、相对孤立的发育基因，以及广阔的基因贫乏、富含重复元件的"沙漠"。高度甲基化结构域（HMDs）：特征：早期复制、高基因密度、低核纤层关联、高GC含量机制：活跃转录区域招募从头甲基转移酶部分甲基化结构域（PMDs）：特征：晚期复制、高核纤层关联、低基因密度、低GC含量大小：0.1-12 Mb 覆盖范围：约占哺乳动物基因组的50% 重叠区域：LOCKs（大的染色质K9修饰）、LADs（核纤层关联结构域）、B compartments 机制：复制偶联的甲基化消耗重要发现：PMDs在许多成年组织中都存在，在长期体外培养或某些癌症中甲基化水平会变得非常低。但人胚胎干细胞（ESCs）可以无限传代且快速分裂，却不表现出同样的增殖依赖性甲基化丢失——这表明表观基因组保真度本身是可以被调控的。 3. 管家基因与发育基因启动子管家基因的CGI启动子通常持续未甲基化，因为： CXXC结构域蛋白结合并保护未甲基化的CG-rich DNA H3K4甲基化拮抗DNMT3活性 R-loop（新生RNA与基因组DNA形成）进一步破坏DNMT相关复合物发育基因启动子则位于更大的GC-rich和CGI-rich区域，称为DNA甲基化谷（DMVs）或峡谷（canyons）：大小：5-50 kb 状态：在天然组织和细胞类型中大部分保持无甲基化调控：由Polycomb repressive complex 2（PRC2）沉积的高水平H3K27me3作为兼性异染色质被抑制特征：同时具有H3K27me3（抑制）和启动子H3K4me3（激活），即所谓的二价结构域（bivalent domains）功能：使祖细胞能够激活或失活相关的分化程序 DMV的保护机制： TET酶（TET1/2/3）与PRC1和PRC2共定位 TETs将5mC氧化为5hmC、5fC、5caC QSER1等互作伙伴通过CXXC结构域将TETs靶向DMVs KDM2B（H3K36特异性组蛋白去甲基化酶）也参与保护疾病中的DMV异常： DNMT3A的功能获得性突变导致Tatton-Brown-Rahman综合征（过度生长）或Heyn-Sproul-Jackson综合征（侏儒症） PWWP结构域突变导致DMV边界模糊，异常甲基化向内部扩散 TET三敲除的人ESCs会表现出DMV甲基化增加 4. 活跃的增强子元件在体细胞中，DNA甲基化的变化通常反映了转录因子与CpG贫乏的远端增强子的活跃结合。这些区域：平衡到中等水平的甲基化表现出低水平的、TET依赖性的5hmC富集指示DNMT介导和TET介导的周转的实质性程度例子： ...

长读长测序时代的DNA甲基化计算分析（2025 Nature Reviews Genetics综述）

概述 DNA甲基化（主要是CpG位点的5mC）是关键的表观遗传修饰，在基因调控、基因组印记、X染色体失活、转座子沉默等过程中发挥核心作用。传统的短读长亚硫酸氢盐测序（BS-seq）虽然能高精度检测甲基化，但读长短（通常<300bp），无法解决重复序列区域、单倍型特异性甲基化、结构变异与甲基化的关联等问题。长读长测序技术（PacBio HiFi、Oxford Nanopore）的兴起，结合不依赖亚硫酸氢盐的甲基化检测方法，正在彻底改变这一领域。这篇Fu、Timp与Sedlazeck（2025，Nature Reviews Genetics）的综述，系统性总结了长读长测序在DNA甲基化研究中的技术进展、计算方法、应用场景与未来方向。一、长读长甲基化检测技术 1. 两大技术平台的原理 Oxford Nanopore（纳米孔）原理：DNA分子通过纳米孔时，不同碱基（包括甲基化修饰的碱基）会产生不同的电流信号，通过机器学习模型从电流信号中直接推断甲基化状态优势：读长极长（可达Mb级别），适合跨越重复序列和大型SV 直接测序，无需PCR扩增，保留原始修饰信息实时测序，可快速获得结果常用工具： Guppy、Dorado（ONT官方碱基与修饰识别） Megalodon（旧版本，已被Dorado替代） Remora（高性能修饰识别模型） DeepSignal、DeepMod、Nanopolish等第三方工具 PacBio HiFi（SMRT测序）原理：通过测序过程中聚合酶的动力学特征（脉冲宽度、脉冲间隔等）来推断甲基化状态优势：高准确度（HiFi读长准确度>99.9%），适合同时检测遗传变异与甲基化读长适中（10-25kb），平衡了覆盖度与连续性常用工具： pb-CpG-tools（PacBio官方工具） Primrose、DeepCpG等 2. 与传统方法的对比特性短读长BS-seq Nanopore甲基化 PacBio HiFi甲基化读长 <300bp kb-Mb级 10-25kb 单倍型解析能力差（需借助基因型）优（直接通过长读长）优（HiFi准确度高）重复序列区域覆盖差优中-优成本低中-高高计算资源需求低中-高中二、计算分析流程与工具 1. 基础流程：从原始信号到甲基化位点纳米孔数据处理原始 f a s t 5 信号 → D o r a d o / G u p p y 碱基识别 + 修饰检测 → 甲基化调用（ b e d M e t h y l 格式） → 质量过滤与归一化关键步骤：修饰检测：使用针对5mC（CpG）训练的模型，ONT提供多种预训练模型格式转换：从ModBAM到bedMethyl、bigWig等常用格式归一化：处理不同测序运行间的批次效应 PacBio HiFi数据处理 H i F i r e a d s → p b - C p G - t o o l s 甲基化检测 → 与基因组比对 → 甲基化水平定量 2. 单倍型特异性甲基化（Haplotype-specific methylation）长读长的核心优势之一是可以直接将甲基化状态与单倍型关联，无需复杂的基因型推断。 ...

RNA结构：从鉴定到功能，十年回顾与展望

引言 RNA不只是DNA和蛋白质之间的“信使”——它能折叠成复杂的功能结构。从tRNA、核糖体RNA到核糖开关，我们早已知道RNA结构的重要性，但直到高通量测序技术的出现，我们才真正意识到：RNA结构无处不在，存在于每一种生物的每一条RNA上。这篇综述（Cao等，2024，Nature Reviews Molecular Cell Biology）系统性地总结了过去十年RNA结构研究的技术进展、RNA结构在基因调控中的作用，以及如何靶向RNA结构进行药物设计。一、研究RNA结构的技术进展 1. 传统方法的局限早期研究RNA结构主要依赖生物物理技术： X射线晶体学：分辨率高，但需要结晶，适合短RNA NMR：可溶液中研究，但分子量受限冷冻电镜（cryo-EM）：近年来突破很大，但仍有挑战生化方法包括：核酸酶酶切：RNase T1/S1（单链）、RNase V1（双链）化学修饰：DMS（修饰A/C）、SHAPE（修饰2’-OH）但这些方法通常只能研究单个RNA，且电泳检测耗时耗力，不适合全转录组规模。 2. 高通量测序时代 2010年以来，高通量测序彻底改变了这个领域：化学探针法（Chemical Probing）原理：化学修饰后，逆转录酶会在修饰位点停滞或引入突变，通过测序定位常用试剂： DMS：体内外都可用，修饰A/C SHAPE（NAI、2A3）：修饰所有4种碱基的柔性2’-OH 检测方式： RT-stall：逆转录停滞，测截断位点 MaP（Mutational Profiling）：突变谱，更准确邻近连接法（Proximity Ligation）原理：交联后将相互作用的RNA片段连接在一起，测序鉴定方法： PARIS、SPLASH、LIGR-seq、COMRADES：基于补骨脂素交联，捕获直接碱基配对 CLASH、hiCLIP、CRIC-seq、RIC-seq：基于蛋白-RNA交联，捕获蛋白介导的相互作用优势：能鉴定长程的分子内或分子间相互作用新技术方向单细胞、单分子：smStructure-seq、Nano-DMS-MaP 纳米孔直接测序：避免逆转录偏差 AI辅助：结合深度学习预测结构 3. 计算工具结构预测：RNAfold、CONTRAfold、EternaFold 数据处理：从测序reads推断化学 reactivity 构象解析：RING-MaP、DREEM、DANCE-MaP、DRACO（从混合群体中解构不同构象） AI方法：SPOT-RNA、MXfold2、Ufold、DRfold、trRosettaRNA、ARES 二、RNA结构在基因调控中的作用 1. 转录调控原核生物：核糖开关（Riboswitch）：感受代谢物，通过结构变化控制转录终止转录暂停为核糖开关折叠提供时间窗口真核生物：转录速度影响共转录折叠：慢Pol II导致更紧凑的结构，影响剪接和编辑 lncRNA结构：7SK的构象转换控制P-TEFb活性；COOLAIR结构响应温度调控FLC（开花） 2. RNA剪接局部结构：5’剪接位点前两个核苷酸保持未配对对识别很重要长程配对：果蝇Dscam基因通过竞争性RNA配对实现互斥剪接哺乳动物中RBFOX蛋白通过远端RNA配对调控剪接反向剪接产生circRNA也依赖Alu重复序列配对 3. 翻译调控 5’ UTR结构：热力学稳定结构阻碍扫描 RNA温度计：高温熔解，暴露RBS（如李斯特菌毒力基因）铁响应元件（IRE）：结合铁调节蛋白 uORF附近的发夹动态调控起始密码子选择 G-四链体（rG4）： 5’ UTR的rG4抑制翻译，需要解旋酶（如DHX36）植物中JUL蛋白结合rG4调控韧皮部发育 IRES：病毒和部分细胞mRNA的帽非依赖翻译 CDS结构：起始密码子下游约70nt的高度折叠结构需要解旋酶（Dhh1/DDX6） 3’ UTR结构：rG4也能抑制翻译；RBP结合促进5’-3’通讯 4. RNA降解 3’ UTR整体结构化：通常与稳定性正相关结构动态：斑马鱼母源-合子转换（MZT）期间，3’ UTR结构重塑，控制Elavl1a结合，决定mRNA命运蛋白识别：AUF1、HuR识别单链ARE；STAU1、regnase 1、roquin识别双链或茎环 5. RNA定位 RNA zipcode：定义结构被RBP识别，沿细胞骨架运输酵母ASH1：茎环结构决定子细胞定位果蝇bicoid、oskar等：母体mRNA的不对称定位哺乳动物ACTB：3’ UTR zipcode决定成纤维细胞前缘定位植物长距离运输：tRNA样结构促进mRNA通过韧皮部 systemic movement 病毒RNA：HIV RRE、逆转录病毒CTE介导核输出 6. RNA结构依赖的凝聚体 RNA-RNA相互作用：酵母应激颗粒富含反义RNA-mRNA配对环-环碱基配对驱动RNA多聚化 GGGGCC重复（ALS/FTD）形成分子间rG4诱导凝聚植物SHR mRNA的rG4触发内皮层细胞凝聚 RNA-蛋白相分离：单链RNA促进polyQ蛋白Whi3凝聚 SARS-CoV-2基因组双链RNA促进N蛋白凝聚 NEAT1作为架构形成paraspeckles rG4和i-motif与组蛋白H1形成液滴三、靶向RNA结构的药物开发曾几何时，RNA被认为是“不可成药”的——缺乏特异性的“药袋”。但现在情况变了。 ...

转录因子结合位点（TFBS）预测技术演进深度梳理（2023-2026）

从独热编码到概率化基因组表征，从CNN到KAN网络，TFBS预测正在经历一场范式革命。目录特征工程：从静态矩阵到动态表征模型架构：机制整合的时代关键技术深度解析技术落地实践指南未来趋势展望特征工程：从静态矩阵到动态表征 1.1 序列表征技术的三代演进第一代：独热编码（2023年以前） # 传统独热编码示例 def one_hot_encode(sequence): encoding = np.zeros((4, len(sequence))) for i, nucleotide in enumerate(sequence): if nucleotide == 'A': encoding[0, i] = 1 elif nucleotide == 'C': encoding[1, i] = 1 elif nucleotide == 'G': encoding[2, i] = 1 elif nucleotide == 'T': encoding[3, i] = 1 return encoding 局限性：4×L稀疏矩阵，无法捕捉长程依赖，缺乏生物学语义。第二代：k-mer + Transformer嵌入（2023-2024）代表技术：DNABERT 将DNA序列视为自然语言使用3-mer/6-mer分词：“ATCGAT” → [“ATC”, “TCG”, “CGA”, “GAT”] 映射到768维连续向量空间能捕捉数百bp的复杂调控模式 # DNABERT嵌入获取示例（简化版） from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("zhihan1996/DNABERT-2-117M") model = AutoModel.from_pretrained("zhihan1996/DNABERT-2-117M") sequence = "ATCGATCGATCGATCGATCGATCGATCGATCG" inputs = tokenizer(sequence, return_tensors="pt") outputs = model(**inputs) embedding = outputs.last_hidden_state # Shape: [1, seq_len, 768] 第三代：字节对编码（BPE）（2024-2025）代表技术：DNABERT-2 ...

最近 CNS pangenome 论文总结（2024-2026）

1. Nature (2025): Leveraging a phased pangenome for haplotype design of hybrid potato 内容：构建了 31 个二倍体马铃薯（含 10 个野生种、19 个栽培种、2 个自交系）的 60 个单倍型的 phased pangenome graph 亮点：用 PGGB 和 Minigraph-Cactus 构建了马铃薯图泛基因组系统揭示了 SV 在进化和驯化中的起源与命运设计了“理想马铃薯单倍型 (IPHs)”用于杂交育种意义：为无性繁殖作物的基因组设计育种奠定理论基础 2. Nature (2025): A pangenome reference of wild and cultivated rice 内容：构建了 145 个染色体水平的水稻泛基因组（16 个栽培稻 + 129 个野生稻 O. rufipogon）亮点：支持“单次驯化起源”假说：所有亚洲栽培稻均源自 Or-IIIa（粳稻祖先）精细解析了栽培稻与野生稻之间的基因流挖掘了大量抗病/抗逆基因资源意义：为水稻育种提供全面的野生种质遗传变异资源 3. Nature Genetics (2025): Super pangenome of Vitis empowers identification of downy mildew resistance genes for grapevine improvement 内容：构建了葡萄属（Vitis）的超级泛基因组亮点：覆盖整个葡萄属的综合基因组信息成功挖掘了霜霉病（downy mildew）抗性基因意义：为葡萄抗病育种提供直接靶点 4. Nature (2025): Pan-genome bridges wheat structural variations with habitat and breeding 内容：小麦泛基因组与 SV、生境、育种的关联研究亮点：揭示了小麦结构变异与生境适应及育种性状的关联以 VRN-A1 基因为例展示了转录水平在冬性品种中的变化引用：已被引 110 次，是近期小麦泛基因组领域的高影响力工作 5. 其他重要论文 Nature (2025): The phased pan-genome of tetraploid European potato（四倍体欧洲马铃薯 phased 泛基因组） Nature Plants (2025): Pan-genome analysis provides insights into legume evolution and breeding（豆科泛基因组与进化育种） Nature Genetics (2025): Pan-genome analysis reveals the evolution and diversity of Malus（苹果属泛基因组进化与多样性） Trends Microbiol (Cell, 2025): On the biological meaning of the population pangenome（群体泛基因组的生物学意义综述） Nature Reviews (2025): The role of pangenomics in orphan crop improvement（泛基因组在孤儿作物改良中的作用综述）总体趋势：2024-2026 年 pangenome 领域的主流是 phased 图泛基因组 + 从种质资源到育种应用的闭环，重点作物包括马铃薯、水稻、小麦、葡萄、苹果、豆科等，核心方向是挖掘 SV、单倍型设计、野生种质利用。 ...