ロングリードシーケンシング時代のDNAメチル化計算解析(2025 Nature Reviews Genetics総説)
概要 DNAメチル化(主にCpG部位の5mC)は、遺伝子制御、ゲノムインプリンティング、X染色体不活性化、トランスポゾンサイレンシングなどの過程で中心的な役割を果たす重要なエピジェネティック修飾です。従来のショートリード亜硫酸水素塩シーケンシング(BS-seq)は高精度なメチル化検出が可能ですが、リード長が短く(通常<300bp)、反復配列領域、ハプロタイプ特異的メチル化、構造変異とメチル化の関連などの問題を解決できません。 ロングリードシーケンシング技術(PacBio HiFi、Oxford Nanopore)の登場と、亜硫酸水素塩に依存しないメチル化検出手法の組み合わせにより、この分野は大きく変わりつつあります。このFu、Timp、Sedlazeck(2025、Nature Reviews Genetics)の総説では、DNAメチル化研究におけるロングリードシーケンシングの技術進展、計算手法、応用シーン、今後の方向性が体系的にまとめられています。 一、ロングリードメチル化検出技術 1. 2つの主要プラットフォームの原理 Oxford Nanopore(ナノポア) 原理:DNA分子がナノポアを通過する際、塩基(メチル化修飾を含む)によって異なる電流信号が生じ、機械学習モデルにより電流信号から直接メチル化状態を推定します 利点: リード長が極めて長く(Mbレベルに達する)、反復配列や大型SVをまたぐのに適している 直接シーケンシングでPCR増幅が不要で、元の修飾情報が保持される リアルタイムシーケンシングで迅速に結果が得られる よく使われるツール: Guppy、Dorado(ONT公式の塩基・修飾認識) Megalodon(旧バージョン、Doradoに置き換えられつつある) Remora(高性能な修飾認識モデル) DeepSignal、DeepMod、Nanopolishなどのサードパーティツール PacBio HiFi(SMRTシーケンシング) 原理:シーケンシング中のポリメラーゼの動力学特性(パルス幅、パルス間隔など)からメチル化状態を推定します 利点: 高精度(HiFiリードの精度>99.9%)で、遺伝子変異とメチル化を同時に検出するのに適している リード長が適度(10-25kb)で、カバレッジと連続性のバランスが良い よく使われるツール: pb-CpG-tools(PacBio公式ツール) Primrose、DeepCpGなど 2. 従来法との比較 特性 ショートリードBS-seq Nanoporeメチル化 PacBio HiFiメチル化 リード長 <300bp kb-Mbレベル 10-25kb ハプロタイプ解析能 低(遺伝子型が必要) 高(長リードで直接可能) 高(HiFiの精度が良い) 反復配列領域のカバレッジ 低 高 中-高 コスト 低 中-高 高 計算資源要件 低 中-高 中 二、計算解析フローとツール 1. 基本フロー:生信号からメチル化部位まで ナノポアデータ処理 生 f a s t 5 信 号 → D o r a d o / G u p p y 塩 基 認 識 + 修 飾 検 出 → メ チ ル 化 コ ー ル ( b e d M e t h y l 形 式 ) → 品 質 フ ィ ル タ リ ン グ と 正 規 化 重要なステップ: 修飾検出:5mC(CpG)用に学習されたモデルを使用、ONTは複数の事前学習モデルを提供 フォーマット変換:ModBAMからbedMethyl、bigWigなどの一般的な形式へ 正規化:異なるシーケンシング実行間のバッチ効果を処理 PacBio HiFiデータ処理 H i F i r e a d s → p b - C p G - t o o l s メ チ ル 化 検 出 → ゲ ノ ム へ の ア ラ イ メ ン ト → メ チ ル 化 レ ベ ル の 定 量 2. ハプロタイプ特異的メチル化(Haplotype-specific methylation) ロングリードの核心的な利点の1つは、複雑な遺伝子型推定なしでメチル化状態をハプロタイプに直接関連付けられることです。 ...