転写因子結合部位（TFBS）予測技術の進化を深く整理（2023-2026）

ワンホットエンコーディングから確率的ゲノム表現へ、CNNからKANネットワークへ、TFBS予測はパラダイムシフトの真っ只中にある。

特徴量エンジニアリング：静的行列から動的表現へ

1.1 配列表現技術の3世代の進化

第1世代：ワンホットエンコーディング（2023年以前）

# 従来のワンホットエンコーディングの例
def one_hot_encode(sequence):
    encoding = np.zeros((4, len(sequence)))
    for i, nucleotide in enumerate(sequence):
        if nucleotide == 'A':
            encoding[0, i] = 1
        elif nucleotide == 'C':
            encoding[1, i] = 1
        elif nucleotide == 'G':
            encoding[2, i] = 1
        elif nucleotide == 'T':
            encoding[3, i] = 1
    return encoding

限界: 4×Lの疎行列で、長距離依存を捉えられず、生物学的意味合いが欠如している。

第2世代：k-mer + Transformer埋め込み（2023-2024）

代表技術：DNABERT

DNA配列を自然言語として扱う
3-mer/6-merでトークナイズ：“ATCGAT” → [“ATC”, “TCG”, “CGA”, “GAT”]
768次元の連続ベクトル空間にマッピング
数百bpの複雑な制御パターンを捉えられる

# DNABERT埋め込み取得の例（簡易版）
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("zhihan1996/DNABERT-2-117M")
model = AutoModel.from_pretrained("zhihan1996/DNABERT-2-117M")

sequence = "ATCGATCGATCGATCGATCGATCGATCGATCG"
inputs = tokenizer(sequence, return_tensors="pt")
outputs = model(**inputs)
embedding = outputs.last_hidden_state  # Shape: [1, seq_len, 768]

第3世代：バイト対符号化（BPE）（2024-2025）

代表技術：DNABERT-2

固定長k-merの代わりにSentencePiece + BPEを使用
4096個の可変長「DNAサブワード」語彙を学習
圧縮率：1kb配列 → 約204個のトークン
重要な利点: GPU計算効率と表現の柔軟性のバランスを取っている

技術の詳細:

# DNABERT-2の実際の使用方法
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("zhihan1996/DNABERT-2-117M")

# 語彙サイズの確認
print(f"語彙サイズ: {len(tokenizer.vocab)}")  # 4096

# トークナイズの例
sequence = "ATCGATCGATCGATCGATCG"
tokens = tokenizer.tokenize(sequence)
print(f"元の配列長: {len(sequence)}")      # 24
print(f"トークン数: {len(tokens)}")           # 約5-8個（配列に依存）
print(f"Tokens: {tokens}")

参考文献: DNABERT-2 GitHub

第4世代：確率的ゲノム表現（2025-2026）

代表技術：MutBERT

配列を決定論的なトークン列として扱わない
アリル頻度に基づく確率分布として表現
次元：9×L（4ヌクレオチド + 5特殊トークン）
1000ゲノムプロジェクトの集団変異データを直接統合

技術実装:

# MutBERT確率的表現の例
def probabilistic_encode(sequence, snp_data=None):
    """
    DNA配列を確率行列に変換
    snp_data: 1000ゲノムプロジェクトからのアリル頻度データ
    """
    prob_matrix = np.zeros((9, len(sequence)))
    
    for i, nucleotide in enumerate(sequence):
        # 基礎確率
        base_probs = np.zeros(4)
        base_idx = {'A': 0, 'C': 1, 'G': 2, 'T': 3}[nucleotide]
        base_probs[base_idx] = 0.95  # 主要アリル
        
        # SNPデータがあれば集団変異を統合
        if snp_data and i in snp_data:
            alleles = snp_data[i]
            for allele, freq in alleles.items():
                if allele in base_idx:
                    base_probs[base_idx[allele]] = freq
        
        prob_matrix[0:4, i] = base_probs
        
        # 特殊トークン（不確実性などを表す）
        prob_matrix[4, i] = 0.01  # 不確実フラグ
        
    return prob_matrix

MutBERTの性能:

TFBS予測タスクでMCCが3-5%向上
変異効果予測（VEP）で精度が8-12%向上
コード: MutBERT GitHub

1.2 DNA形状特徴の体系的な統合

転写因子は配列だけでなくDNAの幾何構造も認識する。現代モデルは以下5種類のコア形状特徴を統合:

特徴	技術由来	生物学的意味	TFBSへの影響
HelT（ねじれ）	DNAshapeR/Monte Carlo	DNA二重らせんの回転幾何	タンパク質-DNAの空間的フィットに影響
MGW（副溝幅）	DNAshapeR	副溝の幅の変化	タンパク質側鎖の埋め込み深さに影響
ProT（プロペラねじれ）	DNAshapeR	塩基対平面の非平行度	塩基スタッキング相互作用を制御
Roll（ロール角）	DNAshapeR	隣接塩基対間の傾き	DNAの局所的な柔軟性に影響
EP（静電ポテンシャル）	DNAshapeR	リン酸骨格の電荷分布	荷電アミノ酸の静電的引き寄せを制御

1.3 負サンプリング戦略の進化

負サンプルの品質はモデルの汎化性能を直接決定する。

サンプリング戦略	方法	利点	欠点	適用モデル
ランダムサンプリング（RS）	ゲノムからランダムに切り出す	実装が容易	非制御配列が多すぎる	初期CNN
等長拡張サンプリング（EE）	結合部位の隣接領域から切り出す	GC含量、クロマチン開放性がマッチ	弱い結合部位を含む可能性がある	BTFBS
GC含量マッチングサンプリング	GC含量、配列長、反復配列比率をマッチ	組成バイアスを除去	計算コストが比較的高い	CBR-KAN, NyxBind

モデルアーキテクチャ：メカニズム統合の時代

2.1 代表的なモデル技術の詳細

モデル	年	アーキテクチャ	性能	技術革新
TBCA	2024	2層CNN + フーリエ変換強化マルチヘッドアテンション + チャネルアテンション	165個ChIP-seqデータセットでSotA	フーリエ変換で一部自己注意を置き換え
TFBS-Finder	2025	DNABERT + CNN + MCBAM + MSCA	SotA予測器を上回る	MCBAM + MSCAアテンションメカニズム
CBR-KAN	2025	マルチスケールCNN + BiLSTM + KAN + 残差接続	50個ベンチマークデータセットでACCが顕著に向上	KANネットワークでMLPを置き換え
GCBLANE	2025	CNN + BiLSTM + マルチヘッドアテンション + GNN	690個データセットで平均AUC 0.943	グラフニューラルネットワークで配列をモデル化
BPNet	2026	膨張畳み込み + 残差ブロック	塩基対解像度の予測	CWM貢献重み行列
HyenaDNA	2025	Hyena演算子（暗黙的長距離畳み込み）	1M bpの超長配列をサポート	O(N log N)計算量

2.2 主要コンポーネントの深堀り

2.2.1 KANネットワーク（Kolmogorov-Arnold Network）

なぜKANはTFBS予測にMLPより適しているのか？

MLP: ニューロンに固定活性化関数を適用

KAN: 辺に学習可能な活性化関数を適用

数学的原理:

生物学的意味:

タンパク質-DNA結合親和性は非線形スプライン特性を示す
KANは線形全結合層よりも複雑な物理的相互作用をより正確にフィットできる
CBR-KANではKANがMLPを置き換えACCを4-6%向上させた

参考文献: KAN: Kolmogorov-Arnold Networks (ICLR 2025)

2.2.2 マルチスケール畳み込みとアテンションメカニズム（MSCA）

TFBS-FinderのMSCAモジュールは、異なるサイズの畳み込みカーネル（3×3, 5×5, 7×7）で並列に特徴を抽出し、それぞれ異なる長さの転写因子結合モチーフ（通常4-30bpの間）に対応する。その後、空間アテンションメカニズムでこれらのスケールを重み付けし、モデルは現在のTF結合に最も重要な配列スパンを自動的に識別できる。

2.2.3 配列へのグラフニューラルネットワーク（GNN）の応用

GCBLANEモデルは、DNA配列断片をグラフのノードとして、塩基間の物理的距離または共進化関係をエッジとして扱う。このアプローチは配列の線形仮定を破り、DNA折り畳み後に空間的に近いが配列上では離れている制御モチーフ間の相乗効果を捉えることができ、690個データセットで平均AUC 0.943を達成した。

2.2.4 Hyena演算子：Transformerの長さ制限を突破

問題: Transformerの自己注意はO(N²)の計算量で、万級塩基配列の処理が難しい

解決策: Hyena演算子（暗黙的長距離畳み込み）、計算量O(N log N)

HyenaDNAの性能:

1M bpの超長配列をサポート（従来のTransformerは1-4kbしか処理できない）
23個の下流タスクでSotAを達成
コード: HyenaDNA Hugging Face

主要技術の深堀り

3.1 PFMからCWMへ：統計的記述から機能的表現へ

従来方法: 位置頻度行列（PFM）は塩基の出現頻度のみを記録

現代方法: 貢献重み行列（CWM）は深層学習モデルの勾配逆伝播により、各位置の予測スコアへの実際の貢献を計算する。JASPAR 2026はすでに1,259個のBPNetモデルのCWMを統合している。

3.2 事前学習基盤モデル（GFMs）の台頭

モデル	事前学習データ	適用シーン	利点
DNABERT-2	135種、325億塩基	汎用ゲノム解析	多種汎化能力が高い
AgroNT	48種の植物ゲノム	植物制御研究	植物-動物配列分布の違いを解決
MutBERT	集団規模SNPデータ	変異効果予測	参照ゲノムから個体変異へ

技術導入実践ガイド

4.1 適切なモデルアーキテクチャの選択

あなたのシーン	推奨モデル	理由
短配列（<500bp）、高精度優先	CBR-KAN	KANネットワークの非線形フィット能力
長配列（1kb-100kb）	HyenaDNA	超長配列をサポート、O(N log N)計算量
変異効果予測が必要	MutBERT	確率的ゲノム表現がSNPデータを統合
細胞系間/種間汎化	DNABERT-2 + 微調整	多種事前学習基盤モデル
解釈可能性が必要	BPNet	貢献重み行列（CWM）

4.2 完全なTFBS予測パイプライン

主要ステップ:

データ準備（正負サンプルの構築）
DNABERT-2のBPE tokenizerで配列を符号化
モデル構築（基盤モデル + 分類ヘッド）
LoRA微調整（パラメータ効率が高い）
評価（AUC、MCC）

4.3 負サンプル構築のベストプラクティス

混合サンプリング戦略を推奨:

40% 等長拡張サンプリング（EE）
40% GC含量マッチングサンプリング
20% ランダムサンプリング

今後のトレンド展望

5.1 技術進化の4つのロジック

進化ロジック1：静的行列から動的表現へ

2023年：PFM（位置頻度行列）
2026年：CWM（貢献重み行列）

進化ロジック2：計算効率と長距離モデリングのバランス

Transformer：O(N²) → TBCA/HyenaDNA：O(N log N)

進化ロジック3：事前学習基盤モデル（GFMs）の台頭

「ゼロから小モデルを学習」から「基盤モデルを微調整」へ

進化ロジック4：エンドツーエンドの解釈可能性

「ブラックボックス」から「ホワイトボックス」へ、コンピュータ支援の精密制御ネットワーク再構成

5.2 今後5年の技術的ボトルネック

細胞エピゲノム特徴の統合（ATAC-seq動的シグナル）
3次元ゲノムトポロジーデータの処理（Hi-C高次元）
集団遺伝学に基づく確率モデリング（参照ゲノムから個体変異へ）

5.3 研究者へのアドバイス

TFBS予測を始めたばかりの場合:

まずDNABERT-2 + LoRA微調整を使う、これが2026年のbaseline
負サンプリングは混合戦略を使用
評価指標はAUCとMCCを見て、精度だけを見ない

方法革新をしたい場合:

KANネットワークにはまだ多くの探索の余地がある
3Dゲノムへのグラフニューラルネットワークの応用
確率的表現と基盤モデルの深い統合

参考文献

コア論文

DNABERT-2: [ICLR 2024] Efficient Foundation Model and Benchmark for Multi-Species Genome
MutBERT: [Bioinformatics 2025] Probabilistic Genome Representation Improves Genomics Foundation Models
KAN: [ICLR 2025] Kolmogorov-Arnold Networks
HyenaDNA: [Nature 2023] Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
JASPAR 2026: [Nucleic Acids Research 2026] 20th anniversary update

コードリソース

DNABERT-2: https://github.com/MAGICS-LAB/DNABERT_2
MutBERT: https://github.com/ai4nucleome/mutBERT
HyenaDNA: https://huggingface.co/LongSafari/hyenadna-large-1m-seqlen
KAN: https://github.com/KindXiaoming/pykan

結び

2023-2026年、TFBS予測は「大規模モデル+マルチモーダル+確率表現」の時代に入った。

特徴量エンジニアリング: ワンホットエンコーディング → 確率的ゲノム表現
モデルアーキテクチャ: 単一CNN → 混合アーキテクチャ（CNN+RNN+Transformer+GNN+KAN）
パラダイム: タスク固有学習 → 基盤モデル微調整
解釈可能性: ブラックボックス → ホワイトボックス

今後のブレイクスルーは、細胞エピゲノム統合、3次元ゲノムトポロジーモデリング、集団遺伝学確率表現の深化から来る可能性がある。

覚えておこう：最も複雑なモデルではなく、あなたの実際の問題を最もよく解決するモデルが最高のモデルだ。

目次#

特徴量エンジニアリング：静的行列から動的表現へ#

1.1 配列表現技術の3世代の進化#

第1世代：ワンホットエンコーディング（2023年以前）#

第2世代：k-mer + Transformer埋め込み（2023-2024）#

第3世代：バイト対符号化（BPE）（2024-2025）#

第4世代：確率的ゲノム表現（2025-2026）#

1.2 DNA形状特徴の体系的な統合#

1.3 負サンプリング戦略の進化#

モデルアーキテクチャ：メカニズム統合の時代#

2.1 代表的なモデル技術の詳細#

2.2 主要コンポーネントの深堀り#

2.2.1 KANネットワーク（Kolmogorov-Arnold Network）#

2.2.2 マルチスケール畳み込みとアテンションメカニズム（MSCA）#

2.2.3 配列へのグラフニューラルネットワーク（GNN）の応用#

2.2.4 Hyena演算子：Transformerの長さ制限を突破#

主要技術の深堀り#

3.1 PFMからCWMへ：統計的記述から機能的表現へ#

3.2 事前学習基盤モデル（GFMs）の台頭#

技術導入実践ガイド#

4.1 適切なモデルアーキテクチャの選択#

4.2 完全なTFBS予測パイプライン#

4.3 負サンプル構築のベストプラクティス#

今後のトレンド展望#

5.1 技術進化の4つのロジック#

5.2 今後5年の技術的ボトルネック#

5.3 研究者へのアドバイス#

参考文献#

コア論文#

コードリソース#

結び#

目次