本文 3 個互動圖表在手機上以重點摘要呈現，互動版請以桌面瀏覽器開啟。

所有 scaling law 都答應你一件事：給更多參數、更多 token、更多 compute，loss 一定往下走。但 2025 年起越來越多人撞到反例——overtrain 太久 loss 反彈、把模型 quantize 到 4-bit 後越訓練越爛。一條只會單調下降的冪次律，沒辦法解釋一條會「掉頭往上」的曲線。

把 LLM 訓練當成有雜訊的通道——Shannon Scaling Law 怎麼解釋過訓練與量化退化

讀完這篇你會得到一個新的看 scaling law 的角度。你已經知道什麼是 LLM、知道 scaling law 大致是「越大越好」的冪次律，但你大概沒把 Claude Shannon 1948 年那條 channel-capacity 定理跟訓練 loss 連在一起想過。這篇 arXiv 論文（arXiv:2605.23901，LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws）做的正是這件事：把 LLM 的訓練過程當成「訊號通過一條有雜訊的通道」，借用 Shannon-Hartley 定理，導出一條他們叫做 Shannon Scaling Law 的式子。它的賣點不是「比 Chinchilla 更會 fit 下降曲線」，而是它能描述一個 Chinchilla 與 Kaplan 從定義上就畫不出來的形狀——U 型。文章會從「為什麼舊定律在這裡失效」開始，補上你可能沒有的 channel capacity 直覺，再看作者怎麼把模型量對應到通道量，最後落到一個你下週可能真的要做的決定：這個模型該訓多久、該 quantize 到多兇。

單調冪次律解釋不了的兩個現象——overtraining 反彈與量化退化

先把舊世界講清楚，因為新定律的價值完全建立在舊定律的破口上。

從 Kaplan 等人 2020 年的論文、到 DeepMind 2022 年的 Chinchilla，主流 scaling law 長得都是同一個家族——冪次律。把它寫成最常見的形狀：

// 古典 scaling law（Chinchilla 形狀）
L(N, D) = E + A / N^alpha + B / D^beta

// N = 參數量，D = 訓練 token 數
// E = irreducible loss（資料本身的熵下限）
// A, B, alpha, beta 都是 fit 出來的正數常數

盯著這個式子看一秒，你會發現一個結構性的事實：右邊每一項對 N、對 D 都是單調遞減的。N 變大，A / N^alpha 變小；D 變大，B / D^beta 變小。兩項都只會把 L 往 E 這個地板壓。所以這條定律從數學形狀上就保證了——你不可能讓 loss 在加大 N 或 D 的過程中反彈。它連「往上」的自由度都沒有。

問題是，真實世界的曲線會往上。論文點名了兩個現象。

第一個是 catastrophic overtraining（災難性過訓練）。2025 年陸續有人觀察到：一個模型在某個 token 預算下表現最好，但如果你死命再餵更多 token 繼續訓，下游任務的表現反而開始變差——不是收斂變慢，是真的退步。把橫軸換成 compute、縱軸換成 loss，你得到的不是一條趨平的曲線，而是一條先下後上的盆地。冪次律會告訴你「再訓一定更好」，現實打臉。

第二個是 quantization-induced degradation（量化導致的退化）。你把一個訓好的模型壓成 4-bit、3-bit、甚至 2-bit 來省記憶體與頻寬。在中等位寬時還行，但壓得夠兇之後，一個詭異的二階效應冒出來：訓練得越久、原始 token 餵得越多的模型，量化後掉得越慘。也就是說，「多訓練」這個本來該是好事的動作，在低位寬量化下變成負債。同一個 compute 軸，loss 又一次掉頭往上。

兩個現象的共同點，是它們都把「更多 compute → 更低 loss」這個單調假設給打破了。它們不是 fit 不夠好的問題——你拿任何單調冪次律去 fit 一條 U 型曲線，最好的結果也只是一條穿過盆地中央、兩頭都對不上的直線。論文要問的是：有沒有一個本來就允許 U 型的理論框架，能把這兩個看似無關的現象用同一套語言講出來。

它們確實有一個共同的物理直覺：在某個點之後，你加進系統的東西，「有用的訊號」沒怎麼增加，「雜訊」卻在累積。overtraining 是模型開始記憶資料裡的雜訊；量化是把權重的精度砍掉、等於往權重裡灌入量化雜訊。這個「訊號 vs 雜訊」的拉鋸，正好是資訊論在 1948 年就已經形式化過的東西。

這裡值得提醒一個常見誤解。看到 U 型，很多人第一反應是「learning rate schedule 沒調好」或「資料品質在後段下降」。論文的主張更強：即使工程因素都控制住，只要 N·D 上去而有效 SNR 沒撐住，盆地在理論上就會出現，不是調參能消掉的 artifact。換句話說，它把 overtraining 與量化退化從「工程失誤」重新定性成「資訊論的結構性後果」——至少給了一個可被證偽的框架，而不是「再調調看」的經驗談。

Shannon-Hartley 定理與那張翻譯表——一條通道能塞多少資訊，又怎麼對應到 LLM

放下 LLM 幾分鐘。我們需要一個你可能還沒有的 prereq：channel capacity。

想像你要透過一條物理通道傳資料——一條電話線、一段無線電頻譜、一條光纖。這條通道有兩個天生的限制。第一是 bandwidth（頻寬，記作 B，單位 Hz）：通道每秒能擺動幾次，決定了你一秒能塞進幾個獨立的符號。第二是 noise（雜訊）：任何真實通道都有背景雜訊，會把你送出的乾淨訊號弄花。你送出的訊號有一個功率（signal power，S），雜訊也有一個功率（noise power，N），兩者的比值就是 SNR（signal-to-noise ratio，訊雜比）= S / N。

1948 年 Claude Shannon 給出一個漂亮到不像真的的結論：在這條通道上，「每秒能可靠傳輸的最大資訊量」有一個硬上限，叫 channel capacity C，而且只由 B 和 SNR 決定——

// Shannon-Hartley 定理
C = B · log2(1 + SNR)

// C = capacity（bits / 秒）——可靠傳輸的理論上限
// B = bandwidth（Hz）
// SNR = signal power / noise power（無單位的比值）

這個式子值得拆兩個關鍵直覺出來，因為等一下整篇論文都靠它們。

第一，capacity 隨 bandwidth 線性成長，但隨 SNR 只是 log 成長。注意 B 在 log 外面、SNR 在 log 裡面。意思是：拓寬通道（加 B）回報是線性的、很划算；但拼命加大訊號功率去拉高 SNR，回報是對數的、邊際效益遞減得很快。把 SNR 從 1 拉到 1000，capacity 只多了大約 10 bits／symbol——log2(1001) ≈ 10。這個「log 壓縮」是資訊論的核心稅。

第二，也是這篇論文真正吃重的一點：capacity 是個有限的天花板。不管你傳多用力，只要 SNR 沒撐住，C 就卡在那裡。關鍵在於——如果你加大 bandwidth 卻沒同步維持 SNR 呢？在物理通道裡，加大頻寬通常會吸進更多雜訊（雜訊功率正比於頻寬），於是 SNR 反而下降。B 在 log 外面拉你往上，SNR 在 log 裡面拖你往下。兩股力量打架，capacity 不再單調——它可能先升後降。

看到沒？「先升後降」。這就是 U 型的資訊論起源。一條通道，盲目加大頻寬而不維持 SNR，它能傳的有效資訊量會走出一個盆地。論文要做的事，就是把這個物理通道的盆地，對應到 LLM 訓練的 loss 盆地上。

順帶說一個對後面很有用的細節：為什麼是 log？在固定雜訊下，把訊號功率加倍，你能可靠區分的訊號電平數量大約乘上一個常數因子，而非加倍——資訊量是加上一個常數，反映在 capacity 上就是 log。這個「乘變加」的壓縮，正是為什麼 LLM 世界裡「資料量翻十倍，loss 只降一小截」跟 Shannon 的 log 律對得起來。冪次律用 D^(-beta)、Shannon 框架用 log(1+SNR)，兩者在單調區長得很像——差別只在 Shannon 多了一個「SNR 會被雜訊吃掉」的機制，所以它能離開單調區。

還有一個術語要擺正。capacity 是「上限」，不是「你一定達得到的值」。對 LLM 來說，這對應到「在某個參數量與資料量下，loss 有一個資訊論決定的下限，再怎麼調訓練細節也壓不破」。論文借的就是這個「下限存在且由 SNR 決定」的骨架——它不保證你達到下限，但它預測這個下限會隨 SNR 怎麼變，包括變糟的方向。

到這裡兩個世界都鋪好了，剩下的就是一張翻譯表。論文做的事，本質上是把 LLM 訓練裡的每個量，對應到 Shannon-Hartley 框架裡的一個元件。

核心的兩條映射，論文在 abstract 就講明了：

模型參數 N ↦ 通道頻寬 B。直覺是：參數越多，模型「能同時承載的獨立資訊維度」越多，就像頻寬越寬、能塞的獨立符號越多。參數量是這條學習通道的 capacity 上限的決定因素之一。
訓練 token 數 D ↦ 訊號功率 S。直覺是：餵進去的真實資料是「訊號」，token 越多、訊號功率越強，越能把資料裡的真實規律壓過隨機波動。
intrinsic noise ↦ 雜訊功率 N。這是這套理論的靈魂：訓練過程裡永遠有一個內生的雜訊源——資料本身的隨機性、優化的隨機性、有限精度（量化）灌進去的擾動。它對應通道裡那個永遠抹不掉的背景雜訊。

把這三條代進 Shannon-Hartley，LLM 就有了一個「Shannon capacity」——一個由參數量與有效 SNR 共同決定的、有限的資訊容量天花板。論文的措辭是：scaling 模型大小或資料量，如果沒有同步維持住足夠的 SNR，就會不可避免地放大雜訊，把曲線從「單調改善」推向「U 型退化」（scaling model size or data without preserving a sufficient SNR inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation）。

論文把這個容量翻譯成 loss 時，給出的是一條現象學（phenomenological）式子——loss 等於不可約下限，加上一項由有效 SNR 主導的誤差項，而有效 SNR 大致正比於模型容量與資料量的乘積（SNR ∝ N·D）。當 SNR 在 scaling 過程中被保住，這項往下壓、曲線單調下降，跟 Chinchilla 一致；一旦某個擾動（記憶化、精度損失）讓有效 SNR 隨 D 下降，誤差項掉頭往上，盆地就出現了。它的功能價值在於有一個「往上」的自由度，是 Chinchilla 從結構上就缺的。

下面這個 channel 方塊圖把翻譯表畫出來。左邊是 Shannon 1948 的通道，右邊是 2605.23901 的 LLM 對應——同一套盒子，換了標籤。

同一組盒子換標籤：訊號源 → 訓練 token，bandwidth → 參數量，背景雜訊 → 量化與記憶化引入的 intrinsic noise。一旦 N·D 上升卻沒能撐住 SNR，noise 盒子的影響蓋過 signal 盒子，capacity 掉頭。

同一組盒子換標籤：訊號源 → 訓練 token，bandwidth → 參數量，背景雜訊 → 量化與記憶化引入的 in…

Shannon 框架把模型參數對應為頻寬、訓練 token 對應為訊號，SNR 下降時 loss 從單調轉為 U 型。

這張圖最容易被忽略的是底下那條虛線方塊——intrinsic noise。古典冪次律的世界裡，雜訊是隱含進 irreducible loss E 那個常數的，它不隨 N、D 變動。Shannon 框架的根本差異就在這裡：它讓雜訊變成一個可以隨擾動而長大的量。量化把它調大、過訓練的記憶化把它調大，於是 SNR 隨之掉，盆地隨之出現。

親手把曲線掰彎——sweep 參數與 token，看 loss 從單調變 U 型

抽象講夠了。下面這個 widget 把 Shannon Scaling Law 的 loss 形狀做成可以拖的東西。橫軸是訓練 token D（從少到多），縱軸是 loss。你有三個把手：

參數量 N（對應 bandwidth）——往上拉，整條曲線往下平移、capacity 上限抬高。
雜訊水平（intrinsic noise）——這是關鍵把手。它決定 SNR 隨 D 上升時是被「保住」還是「被稀釋」。

把雜訊維持在低檔，你會看到一條乖乖往下、趨近地板的曲線——這就是 Chinchilla 描述的世界。慢慢把雜訊推高，注意曲線右半邊：在某個 token 數之後它開始掉頭往上，盆地浮現。那個最低點就是「該停下來的 token 預算」；繼續往右訓，你在用 compute 買 loss 上升。這正是 catastrophic overtraining 在這套理論裡的長相。

拖兩條滑桿，看 loss 曲線從單調變 U 型 · 2 sliders

參數量 N（bandwidth） N = 40

intrinsic noise low

兩條曲線用同一組 N。綠色虛線是 Chinchilla 形狀——結構上只能單調下降。橙色實線是 Shannon 形狀：noise 低時兩條幾乎重合，noise 一高，橙線右半段掉頭，最低點（橙圈）就是最佳 token 預算，再往右是 catastrophic overtraining 區。

兩條曲線用同一組 N

雜訊升高後曲線在最佳點掉頭，繼續訓是在買 loss 上升——最低點才是該停的 token 預算。

這個 widget 想讓你體會的是 Shannon 框架最反直覺的一句話：盆地不是 fit 出來的人工產物，它是 SNR 守恆失敗的必然後果。雜訊把手一旦過了閾值，盆地必然出現——你不需要手動掰彎曲線，式子的結構自己會生出 U 型。古典冪次律（綠色虛線）無論你怎麼拉 N 都只能平移、不能轉折，這就是它從定義上輸掉 U 型的原因。

需要誠實標註：上面的曲線是用論文描述的形狀（loss = 地板 + 與有效 SNR 反相關的誤差項，SNR 隨 N·D 上升、隨雜訊累積下降）參數化出來的示意，不是論文表格裡的實測點。它讓你摸到「為什麼會有 U 型」這個機制，不宣稱具體數值。真正的實測，下一節用論文的數字講。

三類擾動，同一條盆地——Gaussian noise、quantization、SFT 怎麼壓低 SNR

一個理論光能畫出漂亮形狀不算數，得在真實模型上對得上資料。論文的驗證跑在兩個公開模型家族上——Pythia（EleutherAI 那套從小到大、訓練過程公開的系列）與 OLMo2（AllenAI 的開放模型）。它在這兩家上施加三類擾動，每一類都從不同方向壓低 SNR，但論文聲稱它們最後都導向同一條 U 型盆地。下面的 tab 把三類擾動拆開講。

切換分頁比較三類擾動怎麼壓低 SNR · 3 tabs

Gaussian noise quantization SFT

直接往權重或激活值加高斯雜訊，是最乾淨的對照組——它讓你把雜訊功率 N 當成一個旋鈕，明確調大、看 SNR 怎麼掉。這對應 Shannon-Hartley 裡那個背景雜訊項最字面的版本。論文用它驗證一件事：當你能精準控制雜訊功率時，loss 的盆地深度與位置應該能被 SNR 公式預測。這是最能直接檢驗「SNR ∝ N·D」這個假設的設定，因為其他變因都被鎖死，只剩雜訊在動。

把訓好的權重壓成低位寬（4-bit、3-bit、2-bit）不是無損的——每個權重被 round 到最近的量化格點，差值就是量化雜訊。位寬砍得越兇，雜訊功率越大，SNR 越低。關鍵的二階效應在這裡：一個訓練得越久、token 餵得越多的模型，權重分布往往越「滿」、越難用少量位元逼近，於是低位寬量化下掉得越慘——「多訓練」反過來放大了量化雜訊。這正是 quantization-induced degradation 的 U 型由來，也是這套理論最實用的一塊：它把「該訓多久」和「該 quantize 到多兇」綁成了同一個 SNR 帳本。

SFT（supervised fine-tuning）在 math、QA、code 三類任務上做。從通道視角看，fine-tune 是往一個已經訓好的通道裡灌新的、分布不同的訊號——如果新訊號與既有表徵衝突，等效於往系統注入雜訊，SNR 下降。論文把 SFT 也納進同一個框架驗證，意義是：它聲稱這條定律不只描述 pretraining，連 post-training 階段的退化也能用同一套 SNR 語言講。三類任務（math／QA／code）覆蓋了難度與分布差異都不同的 fine-tune 情境，是對「普適性」的壓力測試。

三個 tab 的共同骨架是同一句話：每一類擾動都是從某個方向往系統灌雜訊，於是 SNR 下降、盆地出現。Gaussian noise 直接灌、quantization 透過精度損失灌、SFT 透過分布衝突灌——這三種看起來毫不相干的退化，在 Shannon 框架下是同一個量（SNR）在三個入口被壓低的結果。論文報告它在這些設定上「持續勝過古典 scaling law 與近期的 perturbation-aware law」，達到很強的 R² 並抓住前人方法漏掉的 loss 盆地（consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R² scores and accurately capturing loss basins missed by prior approaches）。

這裡有個比較對象值得拎出來：perturbation-aware law（感知擾動的定律）。在 Shannon 之前已經有人意識到古典冪次律對付不了 U 型，於是做了修補——例如針對量化額外加一個與位寬有關的懲罰項。這類定律能 fit 特定一種擾動，但問題是「一種擾動一條補丁」：量化的補丁不能描述 overtraining，SFT 又是另一條式子。Shannon 框架的主張是它不需要對每種擾動各打補丁，因為三者在它眼裡都只是 SNR 下降，用同一個誤差項就吃下去了。論文說它「勝過 recent perturbation-aware laws」比的就是這個——用一條式子同時對得上三類擾動。這也是它能外推的伏筆：只會對特定擾動打補丁的模型，本來就難外推到沒見過的條件。

真正的證據在外推——fit 在 6.9B／180B，預測沒看過的 12B／307B

R² 高其實是個弱證據。任何多兩個自由參數的模型，回頭 fit 同一批資料 R² 都會比較好——這叫 in-sample 過配。一條 scaling law 的真本事在外推：用小模型、少 token 的資料 fit 出參數，去預測一個你訓練時根本沒看過的大模型、長訓練的行為。如果預測站得住，這條定律才算抓到了某種規律而不只是描繪了既有的點。

論文的關鍵實驗就是這個。它的設定是：

// 外推實驗設定（abstract 原文）
fit 資料： Pythia 模型 ≤ 6.9B 參數，≤ 180B token
預測目標： 12B 模型（fit 時完全沒看過），最長到 307B token
結果：     pooled R^2 = 0.847
對照組：   單調冪次律（monotonic baselines）在這個外推下「collapse」

把這四行讀第二遍。fit 用的最大模型是 6.9B、最多 180B token；要預測的是一個 12B 模型在 307B token——參數量幾乎翻倍、token 量接近翻倍，全部落在 fit 範圍之外。Shannon Scaling Law 在這個純外推的設定下，pooled（彙整多個條件）的 R² = 0.847。而論文用的字是 monotonic baselines「collapse」——古典冪次律在這裡不是準度差一點，是整個垮掉。原因前面講過：12B／307B 這個區域已經進入盆地的上升段，單調定律從結構上畫不出上升，只能一路向下偏離真實點。

「pooled R²」也值得拆一下。pooled 是把多個擾動條件、多個 token 切片的預測誤差全部彙整起來算一個 R²，而不是挑一條最漂亮的曲線報——只要有任一條件外推歪掉就會被拉下來。在這種嚴苛口徑下還能拿到 0.847，比「cherry-pick 條件下 R²=0.99」有說服力得多。直觀意思是：12B 模型那一整片（含外推）loss 的變異，大約 85% 能被這條定律解釋掉。對純外推、跨多條件的預測，這是相當強的數字。

反過來看 collapse 為什麼是必然。單調冪次律的參數在豎線左側（≤180B、loss 還在下降的那段）fit 出來，那段資料完全沒有「上揚」的訊息，所以 fit 出來的 beta 一定是正的、曲線一定繼續往下鑽。等實測點在 200B 之後上揚，冪次律手上根本沒有描述上揚的項，只會固執地往下延伸——外推越遠、差越多。這不是 fit 技術問題，是 model class 的表達力問題：你不能用只會畫單調曲線的函數族，去外推一條會轉折的真實曲線。Shannon 接得住，正因為它的函數族內建了轉折的可能。

下面這張圖把這件事畫成「預測 vs 實測」。橫軸是訓練 token，縱軸是 loss。圓點是 12B 模型的實測 loss（隨 token 增加先降後揚的盆地形狀）；橙線是 Shannon Scaling Law 純用 ≤6.9B／≤180B 資料外推出來的預測；綠色虛線是單調冪次律的外推。看綠線怎麼在盆地右半段一路向下、與實測點越拉越開——那就是 abstract 說的 collapse。

示意外推對照：圓點是 12B 模型實測的盆地形狀，橙線是 Shannon Scaling Law 用 ≤6.9B／≤180B 外推（pooled R²=0.847），綠虛線是單調冪次律外推。fit 範圍與外推範圍以豎直分隔線標出。形狀依論文 abstract 描述參數化繪製，非逐點還原表格。

示意外推對照：圓點是 12B 模型實測的盆地形狀，橙線是 Shannon Scaling Law 用 ≤6.9B／≤1…

用 ≤6.9B／≤180B 資料外推 12B／307B，Shannon 法則 pooled R²=0.847，單調冪次律在上升段徹底崩潰。

這張圖要你看的不是「橙線多貼」，而是「綠線多偏」。fit 範圍內（豎線左側）三者都貼著實測點——大家都在這裡 fit 過。分水嶺在豎線右側的外推區：實測 loss 開始上揚，橙線跟著轉折、咬住盆地，綠線卻因為結構上只能下降而一路鑽到實測點下方，誤差越拉越大。這條外推能力比 in-sample 的 R² 重要得多——它意味著你可以用小規模實驗去預估大規模訓練的最佳停點。

它是什麼、不是什麼——一條有資訊論故事的擬合定律

最後把這條定律放回它該在的位置，免得用錯。

先講它不是什麼。它不是從第一性原理推導出來的定理。Shannon-Hartley 對物理通道是嚴格的數學結論，但「LLM 參數 = 頻寬」「訓練 token = 訊號功率」這兩條映射是類比，不是證明出來的等式——論文沒從 transformer 的數學結構推出 capacity = bandwidth·log2(1+SNR) 必然成立，而是借用這個形狀當一個帶資訊論故事的擬合（phenomenological）模型。所以這是「fit 得很好、又有說得通的物理直覺撐腰」的定律，不是「被證明的定律」。把它當 Chinchilla 的同類，而不是熱力學第二定律那種層級的東西。

那它是什麼、為什麼仍然值得記住？因為它把三件原本各說各話的事收進同一個帳本：

它有「往上」的自由度。 古典冪次律從結構上只能單調下降，遇到 overtraining 與量化退化的 U 型只能投降。Shannon 形狀內建了 SNR 被稀釋時的轉折，所以同一條式子能描述「該停的點」在哪。
它把 pretraining 時長與量化激進度綁進同一個 SNR 量。 對要做決策的工程師，這是最實用的一點——「該訓多久」和「能 quantize 到多兇」不再是兩個獨立直覺，而是同一個 SNR 預算的兩種花法。多訓的 token 若把權重分布撐得更滿，留給低位寬量化的 SNR 餘裕就更少。
它外推得住。 用 ≤6.9B／≤180B fit、預測 12B／307B 拿到 pooled R²=0.847，而單調基線 collapse。能外推，代表它抓到的不只是既有點的形狀。

對下週要動手的人，落地建議很具體。規劃長訓練時：別假設「token 越多越好」，用小規模跑出 loss-vs-token 曲線，看盆地最低點在哪、把那當停點，別盲目燒到預算尾巴去買 loss 反彈。做激進量化（3-bit、2-bit）時：把「這個模型訓了多久」納入評估——訓得越久的模型低位寬下退化風險越高，因為 SNR 餘裕已被 pretraining 吃掉一部分。這兩件事過去靠經驗法則拍腦袋，現在至少有一個統一的量（SNR）可以推理。

當然，所有這些都建立在「這兩條映射夠接近真實」這個前提上，而那是個經驗問題，不是定理。論文目前驗證的是 Pythia 與 OLMo2 兩個家族、最大到 12B；它在 70B、在 MoE、在不同 tokenizer 上會不會一樣準，是公開的問題。把它當一個好用的決策工具，同時記著它的 footing 是類比而非推導，是看這篇論文最健康的姿勢。

Take-away：把訓練想成有雜訊的通道——loss 不會永遠下降，只會降到「訊號被你自己灌進去的雜訊蓋過」的那一點；overtraining 與量化退化，是同一條 SNR 在不同入口被稀釋的兩張臉。