<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>DNABERT on 都德的博客</title>
    <link>https://dude.cryomint.com/tags/dnabert/</link>
    <description>Recent content in DNABERT on 都德的博客</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 14 Feb 2026 05:45:00 +0800</lastBuildDate>
    <atom:link href="https://dude.cryomint.com/tags/dnabert/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>转录因子结合位点（TFBS）预测技术演进深度梳理（2023-2026）</title>
      <link>https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/</link>
      <pubDate>Sat, 14 Feb 2026 05:45:00 +0800</pubDate>
      <guid>https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;从独热编码到概率化基因组表征，从CNN到KAN网络，TFBS预测正在经历一场范式革命。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;目录&#34;&gt;目录&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;&lt;a href=&#34;https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/#%e7%89%b9%e5%be%81%e5%b7%a5%e7%a8%8b%e4%bb%8e%e9%9d%99%e6%80%81%e7%9f%a9%e9%98%b5%e5%88%b0%e5%8a%a8%e6%80%81%e8%a1%a8%e5%be%81&#34;&gt;特征工程：从静态矩阵到动态表征&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/#%e6%a8%a1%e5%9e%8b%e6%9e%b6%e6%9e%84%e6%9c%ba%e5%88%b6%e6%95%b4%e5%90%88%e7%9a%84%e6%97%b6%e4%bb%a3&#34;&gt;模型架构：机制整合的时代&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/#%e5%85%b3%e9%94%ae%e6%8a%80%e6%9c%af%e6%b7%b1%e5%ba%a6%e8%a7%a3%e6%9e%90&#34;&gt;关键技术深度解析&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/#%e6%8a%80%e6%9c%af%e8%90%bd%e5%9c%b0%e5%ae%9e%e8%b7%b5%e6%8c%87%e5%8d%97&#34;&gt;技术落地实践指南&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://dude.cryomint.com/posts/2026-02-14-tfbs-prediction-evolution/#%e6%9c%aa%e6%9d%a5%e8%b6%8b%e5%8a%bf%e5%b1%95%e6%9c%9b&#34;&gt;未来趋势展望&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;h2 id=&#34;特征工程从静态矩阵到动态表征&#34;&gt;特征工程：从静态矩阵到动态表征&lt;/h2&gt;
&lt;h3 id=&#34;11-序列表征技术的三代演进&#34;&gt;1.1 序列表征技术的三代演进&lt;/h3&gt;
&lt;h4 id=&#34;第一代独热编码2023年以前&#34;&gt;第一代：独热编码（2023年以前）&lt;/h4&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# 传统独热编码示例&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;def&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;one_hot_encode&lt;/span&gt;(sequence):
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    encoding &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; np&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;zeros((&lt;span style=&#34;color:#ae81ff&#34;&gt;4&lt;/span&gt;, len(sequence)))
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;for&lt;/span&gt; i, nucleotide &lt;span style=&#34;color:#f92672&#34;&gt;in&lt;/span&gt; enumerate(sequence):
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; nucleotide &lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;A&amp;#39;&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            encoding[&lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;, i] &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;elif&lt;/span&gt; nucleotide &lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;C&amp;#39;&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            encoding[&lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;, i] &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;elif&lt;/span&gt; nucleotide &lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;G&amp;#39;&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            encoding[&lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;, i] &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;elif&lt;/span&gt; nucleotide &lt;span style=&#34;color:#f92672&#34;&gt;==&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#39;T&amp;#39;&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;            encoding[&lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;, i] &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; encoding
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;局限性&lt;/strong&gt;：4×L稀疏矩阵，无法捕捉长程依赖，缺乏生物学语义。&lt;/p&gt;
&lt;h4 id=&#34;第二代k-mer--transformer嵌入2023-2024&#34;&gt;第二代：k-mer + Transformer嵌入（2023-2024）&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;代表技术：DNABERT&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;将DNA序列视为自然语言&lt;/li&gt;
&lt;li&gt;使用3-mer/6-mer分词：&amp;ldquo;ATCGAT&amp;rdquo; → [&amp;ldquo;ATC&amp;rdquo;, &amp;ldquo;TCG&amp;rdquo;, &amp;ldquo;CGA&amp;rdquo;, &amp;ldquo;GAT&amp;rdquo;]&lt;/li&gt;
&lt;li&gt;映射到768维连续向量空间&lt;/li&gt;
&lt;li&gt;能捕捉数百bp的复杂调控模式&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#75715e&#34;&gt;# DNABERT嵌入获取示例（简化版）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;from&lt;/span&gt; transformers &lt;span style=&#34;color:#f92672&#34;&gt;import&lt;/span&gt; AutoTokenizer, AutoModel
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;tokenizer &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoTokenizer&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;zhihan1996/DNABERT-2-117M&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;model &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; AutoModel&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;from_pretrained(&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;zhihan1996/DNABERT-2-117M&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;sequence &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;ATCGATCGATCGATCGATCGATCGATCGATCG&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;inputs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; tokenizer(sequence, return_tensors&lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt;&lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;pt&amp;#34;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;outputs &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; model(&lt;span style=&#34;color:#f92672&#34;&gt;**&lt;/span&gt;inputs)
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;embedding &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; outputs&lt;span style=&#34;color:#f92672&#34;&gt;.&lt;/span&gt;last_hidden_state  &lt;span style=&#34;color:#75715e&#34;&gt;# Shape: [1, seq_len, 768]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h4 id=&#34;第三代字节对编码bpe2024-2025&#34;&gt;第三代：字节对编码（BPE）（2024-2025）&lt;/h4&gt;
&lt;p&gt;&lt;strong&gt;代表技术：DNABERT-2&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
