概要

DNAメチル化(主にCpG部位の5mC)は、遺伝子制御、ゲノムインプリンティング、X染色体不活性化、トランスポゾンサイレンシングなどの過程で中心的な役割を果たす重要なエピジェネティック修飾です。従来のショートリード亜硫酸水素塩シーケンシング(BS-seq)は高精度なメチル化検出が可能ですが、リード長が短く(通常<300bp)、反復配列領域、ハプロタイプ特異的メチル化、構造変異とメチル化の関連などの問題を解決できません。

ロングリードシーケンシング技術(PacBio HiFi、Oxford Nanopore)の登場と、亜硫酸水素塩に依存しないメチル化検出手法の組み合わせにより、この分野は大きく変わりつつあります。このFu、Timp、Sedlazeck(2025、Nature Reviews Geneticsの総説では、DNAメチル化研究におけるロングリードシーケンシングの技術進展、計算手法、応用シーン、今後の方向性が体系的にまとめられています。


一、ロングリードメチル化検出技術

1. 2つの主要プラットフォームの原理

Oxford Nanopore(ナノポア)

  • 原理:DNA分子がナノポアを通過する際、塩基(メチル化修飾を含む)によって異なる電流信号が生じ、機械学習モデルにより電流信号から直接メチル化状態を推定します
  • 利点
    • リード長が極めて長く(Mbレベルに達する)、反復配列や大型SVをまたぐのに適している
    • 直接シーケンシングでPCR増幅が不要で、元の修飾情報が保持される
    • リアルタイムシーケンシングで迅速に結果が得られる
  • よく使われるツール
    • Guppy、Dorado(ONT公式の塩基・修飾認識)
    • Megalodon(旧バージョン、Doradoに置き換えられつつある)
    • Remora(高性能な修飾認識モデル)
    • DeepSignal、DeepMod、Nanopolishなどのサードパーティツール

PacBio HiFi(SMRTシーケンシング)

  • 原理:シーケンシング中のポリメラーゼの動力学特性(パルス幅、パルス間隔など)からメチル化状態を推定します
  • 利点
    • 高精度(HiFiリードの精度>99.9%)で、遺伝子変異とメチル化を同時に検出するのに適している
    • リード長が適度(10-25kb)で、カバレッジと連続性のバランスが良い
  • よく使われるツール
    • pb-CpG-tools(PacBio公式ツール)
    • Primrose、DeepCpGなど

2. 従来法との比較

特性 ショートリードBS-seq Nanoporeメチル化 PacBio HiFiメチル化
リード長 <300bp kb-Mbレベル 10-25kb
ハプロタイプ解析能 低(遺伝子型が必要) 高(長リードで直接可能) 高(HiFiの精度が良い)
反復配列領域のカバレッジ 中-高
コスト 中-高
計算資源要件 中-高

二、計算解析フローとツール

1. 基本フロー:生信号からメチル化部位まで

ナノポアデータ処理

f a s t 5 D o r a d o / G u p p y + b e d M e t h y l
  • 重要なステップ
    • 修飾検出:5mC(CpG)用に学習されたモデルを使用、ONTは複数の事前学習モデルを提供
    • フォーマット変換:ModBAMからbedMethyl、bigWigなどの一般的な形式へ
    • 正規化:異なるシーケンシング実行間のバッチ効果を処理

PacBio HiFiデータ処理

H i F i r e a d s p b - C p G - t o o l s

2. ハプロタイプ特異的メチル化(Haplotype-specific methylation)

ロングリードの核心的な利点の1つは、複雑な遺伝子型推定なしでメチル化状態をハプロタイプに直接関連付けられることです。

  • よく使われる戦略

    1. ファージング後にメチル化:まずロングリードでハプロタイプファージング(Whatshap、Hifiasmなど)を行い、次にメチル化readを対応するハプロタイプに割り当てる
    2. ファージングとメチル化を同時に:配列変異とメチル化信号の両方を使ってファージングを行う(Nanoporeの一部の統合ファージングツールなど)
  • 応用シーン

    • ゲノムインプリンティング領域の対立遺伝子特異的メチル化
    • 腫瘍におけるヘテロ接合性喪失(LOH)領域のメチル化変化
    • X染色体不活性化のEscapes遺伝子の同定

3. 構造変異(SV)とメチル化の統合解析

ショートリードではSVとそのメチル化への影響を同時に検出することが難しい場合が多いですが、ロングリードでは以下が可能です:

  • SVブレークポイント周辺のメチル化変化の検出:トランスポゾン挿入近傍のメチル化サイレンシングなど
  • 反復配列伸長領域のメチル化の解析:FMR1遺伝子のCGG反復伸長とメチル化(脆弱X症候群)など
  • ツール
    • PBSV、Sniffles(SV検出)
    • カスタムフロー:SVコールとメチル化信号を組み合わせてSV周辺のメチル化プロファイルを可視化

三、主な応用分野

1. 癌エピゲノム研究

  • 腫瘍内不均一性:ロングリードの一分子特性を活用して、腫瘍細胞亜集団のメチル化不均一性を解析
  • エピジェネティックサイレンシング:腫瘍抑制遺伝子プロモーターの高メチル化を検出し、同時にSVと組み合わせて対立遺伝子喪失の有無を判断
  • 事例
    • 膠芽腫におけるEGFR増幅領域のメチル化変化
    • 白血病における融合遺伝子ブレークポイント周辺のメチル化再編成

2. 神経科学と発生生物学

  • 神経細胞のメチル化多様性:神経細胞は独特のメチル化特性(非CGメチル化など)を持ち、ロングリードはこうした複雑な領域をより良く解析できます
  • 発生過程におけるメチル化動態:着床前の脱メチル化と再メチル化など、ロングリードでハプロタイプのメチル化継承を追跡できます
  • タンデム反復領域:セントロメア、テロメア周辺のメチル化など、ショートリードではカバーが難しい領域

3. 植物エピジェネティクス

  • トランスポゾンのメチル化:植物ゲノムは反復配列の割合が高く、ロングリードでトランスポゾンのメチル化状態と隣接遺伝子への影響を完全に解析できます
  • 対立遺伝子特異的メチル化:雑種における親のメチル化継承と雑種強勢の関係など
  • 事例:シロイヌナズナ、イネなどのモデル植物のメチローム研究

4. 希少疾患とエピジェネティック疾患

  • インプリンティング疾患:Prader-Willi/Angelman症候群(15q11-q13インプリンティング領域)など、ロングリードでは信頼区間内のメチル化異常と構造変異を直接同定できます
  • 反復配列伸長疾患:筋萎縮性側索硬化症(ALS)のC9orf72反復伸長など、ロングリードでは反復回数とメチル化状態を同時に検出できます

四、課題と今後の方向性

1. 現在の課題

  • コスト:ロングリードシーケンシングのコストは依然としてショートリードより高く、大規模サンプルへの適用が制限されます
  • 精度:ナノポアのメチル化検出精度は、一部の配列コンテキストで改善の余地があります
  • 計算資源:大量の生信号データを処理するには高いストレージと計算力が必要です
  • 標準化:異なるプラットフォーム・ツール間の結果の一貫性には標準化が必要です

2. 技術開発のトレンド

  • より長いリード:Nanopore Ultra Long Reads(ULR)はより長く、より正確な方向へ進化しています
  • より高いスループット:PacBio Revio、Nanopore PromethIONなどの新プラットフォームがスループットを向上させています
  • マルチオミクス統合:DNAメチル化、クロマチン高次構造(ロングリードHi-C)、RNA発現(ロングリードRNA-seq)の同時検出
  • AIモデル:生信号からより豊富な修飾情報(5mCだけでなく5hmC、6mAなど)を抽出するためのより高度な深層学習モデル

3. 計算手法のイノベーション

  • より効率的なファージングアルゴリズム:配列変異とメチル化信号を組み合わせた統合ファージング
  • シングルセルロングリードメチル化:現在シングルセルロングリードメチル化はまだ初期段階で、大きな発展の余地があります
  • 可視化ツール:ロングリードメチル化データ専用の可視化(IGVのロングリードメチル化トラック、NanoPackなど)
  • ベンチマークと評価:ロングリードメチル化用のベンチマークデータセットの構築(GIABのエピジェネティックベンチマークなど)

まとめ

ロングリードシーケンシングはDNAメチル化研究を「部位レベル」から「ハプロタイプ、領域、ゲノム全体レベル」へと押し上げ、ショートリード時代では解決できなかった多くの問題を解決しています。技術の進歩とコストの低下に伴い、ロングリードメチル化シーケンシングは以下の分野で主流になるでしょう:

  1. 臨床診断:エピジェネティック疾患と癌の補助診断
  2. 機能ゲノム:非コード領域、反復配列のエピジェネティック制御の解析
  3. 進化研究:種間・種内のエピジェネティック多様性

この総説は技術原理、ツール、応用、課題を非常に体系的にカバーしており、この分野に入る際の優れた出発点となります。


参考文献:Fu, Y., Timp, W., & Sedlazeck, F. J. (2025). Computational analysis of DNA methylation from long-read sequencing. Nature Reviews Genetics, 26, xxx–xxx. (doi:10.1038/s41576-025-00822-5)