転写因子 | 都德のブログ

ワンホットエンコーディングから確率的ゲノム表現へ、CNNからKANネットワークへ、TFBS予測はパラダイムシフトの真っ只中にある。目次特徴量エンジニアリング：静的行列から動的表現へモデルアーキテクチャ：メカニズム統合の時代主要技術の深堀り技術導入実践ガイド今後のトレンド展望特徴量エンジニアリング：静的行列から動的表現へ 1.1 配列表現技術の3世代の進化第1世代：ワンホットエンコーディング（2023年以前） # 従来のワンホットエンコーディングの例 def one_hot_encode(sequence): encoding = np.zeros((4, len(sequence))) for i, nucleotide in enumerate(sequence): if nucleotide == 'A': encoding[0, i] = 1 elif nucleotide == 'C': encoding[1, i] = 1 elif nucleotide == 'G': encoding[2, i] = 1 elif nucleotide == 'T': encoding[3, i] = 1 return encoding 限界: 4×Lの疎行列で、長距離依存を捉えられず、生物学的意味合いが欠如している。第2世代：k-mer + Transformer埋め込み（2023-2024）代表技術：DNABERT DNA配列を自然言語として扱う 3-mer/6-merでトークナイズ：“ATCGAT” → [“ATC”, “TCG”, “CGA”, “GAT”] 768次元の連続ベクトル空間にマッピング数百bpの複雑な制御パターンを捉えられる # DNABERT埋め込み取得の例（簡易版） from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("zhihan1996/DNABERT-2-117M") model = AutoModel.from_pretrained("zhihan1996/DNABERT-2-117M") sequence = "ATCGATCGATCGATCGATCGATCGATCGATCG" inputs = tokenizer(sequence, return_tensors="pt") outputs = model(**inputs) embedding = outputs.last_hidden_state # Shape: [1, seq_len, 768] 第3世代：バイト対符号化（BPE）（2024-2025）代表技術：DNABERT-2 ...