vatt'ghern jaskier's ballads
本文 3 個互動圖表在手機上以重點摘要呈現,互動版請以桌面瀏覽器開啟。

所有 scaling law 都答應你一件事:給更多參數、更多 token、更多 compute,loss 一定往下走。但 2025 年起越來越多人撞到反例——overtrain 太久 loss 反彈、把模型 quantize 到 4-bit 後越訓練越爛。一條只會單調下降的冪次律,沒辦法解釋一條會「掉頭往上」的曲線。

把 LLM 訓練當成有雜訊的通道——Shannon Scaling Law 怎麼解釋過訓練與量化退化

完這篇你會得到一個新的看 scaling law 的角度。你已經知道什麼是 LLM、知道 scaling law 大致是「越大越好」的冪次律,但你大概沒把 Claude Shannon 1948 年那條 channel-capacity 定理跟訓練 loss 連在一起想過。這篇 arXiv 論文(arXiv:2605.23901LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws)做的正是這件事:把 LLM 的訓練過程當成「訊號通過一條有雜訊的通道」,借用 Shannon-Hartley 定理,導出一條他們叫做 Shannon Scaling Law 的式子。它的賣點不是「比 Chinchilla 更會 fit 下降曲線」,而是它能描述一個 Chinchilla 與 Kaplan 從定義上就畫不出來的形狀——U 型。文章會從「為什麼舊定律在這裡失效」開始,補上你可能沒有的 channel capacity 直覺,再看作者怎麼把模型量對應到通道量,最後落到一個你下週可能真的要做的決定:這個模型該訓多久、該 quantize 到多兇。

單調冪次律解釋不了的兩個現象——overtraining 反彈與量化退化

先把舊世界講清楚,因為新定律的價值完全建立在舊定律的破口上。

從 Kaplan 等人 2020 年的論文、到 DeepMind 2022 年的 Chinchilla,主流 scaling law 長得都是同一個家族——冪次律。把它寫成最常見的形狀:

// 古典 scaling law(Chinchilla 形狀)
L(N, D) = E + A / N^alpha + B / D^beta

// N = 參數量,D = 訓練 token 數
// E = irreducible loss(資料本身的熵下限)
// A, B, alpha, beta 都是 fit 出來的正數常數

盯著這個式子看一秒,你會發現一個結構性的事實:右邊每一項對 N、對 D 都是單調遞減的。N 變大,A / N^alpha 變小;D 變大,B / D^beta 變小。兩項都只會把 L 往 E 這個地板壓。所以這條定律從數學形狀上就保證了——你不可能讓 loss 在加大 N 或 D 的過程中反彈。它連「往上」的自由度都沒有。

問題是,真實世界的曲線會往上。論文點名了兩個現象。

第一個是 catastrophic overtraining(災難性過訓練)。2025 年陸續有人觀察到:一個模型在某個 token 預算下表現最好,但如果你死命再餵更多 token 繼續訓,下游任務的表現反而開始變差——不是收斂變慢,是真的退步。把橫軸換成 compute、縱軸換成 loss,你得到的不是一條趨平的曲線,而是一條先下後上的盆地。冪次律會告訴你「再訓一定更好」,現實打臉。

第二個是 quantization-induced degradation(量化導致的退化)。你把一個訓好的模型壓成 4-bit、3-bit、甚至 2-bit 來省記憶體與頻寬。在中等位寬時還行,但壓得夠兇之後,一個詭異的二階效應冒出來:訓練得越久、原始 token 餵得越多的模型,量化後掉得越慘。也就是說,「多訓練」這個本來該是好事的動作,在低位寬量化下變成負債。同一個 compute 軸,loss 又一次掉頭往上。

兩個現象的共同點,是它們都把「更多 compute → 更低 loss」這個單調假設給打破了。它們不是 fit 不夠好的問題——你拿任何單調冪次律去 fit 一條 U 型曲線,最好的結果也只是一條穿過盆地中央、兩頭都對不上的直線。論文要問的是:有沒有一個本來就允許 U 型的理論框架,能把這兩個看似無關的現象用同一套語言講出來。

它們確實有一個共同的物理直覺:在某個點之後,你加進系統的東西,「有用的訊號」沒怎麼增加,「雜訊」卻在累積。overtraining 是模型開始記憶資料裡的雜訊;量化是把權重的精度砍掉、等於往權重裡灌入量化雜訊。這個「訊號 vs 雜訊」的拉鋸,正好是資訊論在 1948 年就已經形式化過的東西。

這裡值得提醒一個常見誤解。看到 U 型,很多人第一反應是「learning rate schedule 沒調好」或「資料品質在後段下降」。論文的主張更強:即使工程因素都控制住,只要 N·D 上去而有效 SNR 沒撐住,盆地在理論上就會出現,不是調參能消掉的 artifact。換句話說,它把 overtraining 與量化退化從「工程失誤」重新定性成「資訊論的結構性後果」——至少給了一個可被證偽的框架,而不是「再調調看」的經驗談。

Shannon-Hartley 定理與那張翻譯表——一條通道能塞多少資訊,又怎麼對應到 LLM

放下 LLM 幾分鐘。我們需要一個你可能還沒有的 prereq:channel capacity。

想像你要透過一條物理通道傳資料——一條電話線、一段無線電頻譜、一條光纖。這條通道有兩個天生的限制。第一是 bandwidth(頻寬,記作 B,單位 Hz):通道每秒能擺動幾次,決定了你一秒能塞進幾個獨立的符號。第二是 noise(雜訊):任何真實通道都有背景雜訊,會把你送出的乾淨訊號弄花。你送出的訊號有一個功率(signal power,S),雜訊也有一個功率(noise power,N),兩者的比值就是 SNR(signal-to-noise ratio,訊雜比)= S / N

1948 年 Claude Shannon 給出一個漂亮到不像真的的結論:在這條通道上,「每秒能可靠傳輸的最大資訊量」有一個硬上限,叫 channel capacity C,而且只由 B 和 SNR 決定——

// Shannon-Hartley 定理
C = B · log2(1 + SNR)

// C = capacity(bits / 秒)——可靠傳輸的理論上限
// B = bandwidth(Hz)
// SNR = signal power / noise power(無單位的比值)

這個式子值得拆兩個關鍵直覺出來,因為等一下整篇論文都靠它們。

第一,capacity 隨 bandwidth 線性成長,但隨 SNR 只是 log 成長。注意 B 在 log 外面、SNR 在 log 裡面。意思是:拓寬通道(加 B)回報是線性的、很划算;但拼命加大訊號功率去拉高 SNR,回報是對數的、邊際效益遞減得很快。把 SNR 從 1 拉到 1000,capacity 只多了大約 10 bits/symbol——log2(1001) ≈ 10。這個「log 壓縮」是資訊論的核心稅。

第二,也是這篇論文真正吃重的一點:capacity 是個有限的天花板。不管你傳多用力,只要 SNR 沒撐住,C 就卡在那裡。關鍵在於——如果你加大 bandwidth 卻沒同步維持 SNR 呢?在物理通道裡,加大頻寬通常會吸進更多雜訊(雜訊功率正比於頻寬),於是 SNR 反而下降。B 在 log 外面拉你往上,SNR 在 log 裡面拖你往下。兩股力量打架,capacity 不再單調——它可能先升後降。

看到沒?「先升後降」。這就是 U 型的資訊論起源。一條通道,盲目加大頻寬而不維持 SNR,它能傳的有效資訊量會走出一個盆地。論文要做的事,就是把這個物理通道的盆地,對應到 LLM 訓練的 loss 盆地上。

順帶說一個對後面很有用的細節:為什麼是 log?在固定雜訊下,把訊號功率加倍,你能可靠區分的訊號電平數量大約乘上一個常數因子,而非加倍——資訊量是加上一個常數,反映在 capacity 上就是 log。這個「乘變加」的壓縮,正是為什麼 LLM 世界裡「資料量翻十倍,loss 只降一小截」跟 Shannon 的 log 律對得起來。冪次律用 D^(-beta)、Shannon 框架用 log(1+SNR),兩者在單調區長得很像——差別只在 Shannon 多了一個「SNR 會被雜訊吃掉」的機制,所以它能離開單調區。

還有一個術語要擺正。capacity 是「上限」,不是「你一定達得到的值」。對 LLM 來說,這對應到「在某個參數量與資料量下,loss 有一個資訊論決定的下限,再怎麼調訓練細節也壓不破」。論文借的就是這個「下限存在且由 SNR 決定」的骨架——它不保證你達到下限,但它預測這個下限會隨 SNR 怎麼變,包括變糟的方向。

到這裡兩個世界都鋪好了,剩下的就是一張翻譯表。論文做的事,本質上是把 LLM 訓練裡的每個量,對應到 Shannon-Hartley 框架裡的一個元件。

核心的兩條映射,論文在 abstract 就講明了:

  • 模型參數 N ↦ 通道頻寬 B。直覺是:參數越多,模型「能同時承載的獨立資訊維度」越多,就像頻寬越寬、能塞的獨立符號越多。參數量是這條學習通道的 capacity 上限的決定因素之一。
  • 訓練 token 數 D ↦ 訊號功率 S。直覺是:餵進去的真實資料是「訊號」,token 越多、訊號功率越強,越能把資料裡的真實規律壓過隨機波動。
  • intrinsic noise ↦ 雜訊功率 N。這是這套理論的靈魂:訓練過程裡永遠有一個內生的雜訊源——資料本身的隨機性、優化的隨機性、有限精度(量化)灌進去的擾動。它對應通道裡那個永遠抹不掉的背景雜訊。

把這三條代進 Shannon-Hartley,LLM 就有了一個「Shannon capacity」——一個由參數量與有效 SNR 共同決定的、有限的資訊容量天花板。論文的措辭是:scaling 模型大小或資料量,如果沒有同步維持住足夠的 SNR,就會不可避免地放大雜訊,把曲線從「單調改善」推向「U 型退化」(scaling model size or data without preserving a sufficient SNR inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation)。

論文把這個容量翻譯成 loss 時,給出的是一條現象學(phenomenological)式子——loss 等於不可約下限,加上一項由有效 SNR 主導的誤差項,而有效 SNR 大致正比於模型容量與資料量的乘積(SNR ∝ N·D)。當 SNR 在 scaling 過程中被保住,這項往下壓、曲線單調下降,跟 Chinchilla 一致;一旦某個擾動(記憶化、精度損失)讓有效 SNR 隨 D 下降,誤差項掉頭往上,盆地就出現了。它的功能價值在於有一個「往上」的自由度,是 Chinchilla 從結構上就缺的。

下面這個 channel 方塊圖把翻譯表畫出來。左邊是 Shannon 1948 的通道,右邊是 2605.23901 的 LLM 對應——同一套盒子,換了標籤。

SHANNON 1948 · 物理通道 訊號源 signal · S 通道 · bandwidth B C = B·log2(1+SNR) noise · N(背景雜訊) 接收端 capacity · C arXiv 2605.23901 · LLM 訓練 訓練 token D ↦ signal 參數 N ↦ bandwidth SNR ∝ N·D intrinsic noise(量化/記憶化) 模型 loss Shannon capacity
同一組盒子換標籤:訊號源 → 訓練 token,bandwidth → 參數量,背景雜訊 → 量化與記憶化引入的 intrinsic noise。一旦 N·D 上升卻沒能撐住 SNR,noise 盒子的影響蓋過 signal 盒子,capacity 掉頭。

同一組盒子換標籤:訊號源 → 訓練 token,bandwidth → 參數量,背景雜訊 → 量化與記憶化引入的 in…

Shannon 框架把模型參數對應為頻寬、訓練 token 對應為訊號,SNR 下降時 loss 從單調轉為 U 型。

這張圖最容易被忽略的是底下那條虛線方塊——intrinsic noise。古典冪次律的世界裡,雜訊是隱含進 irreducible loss E 那個常數的,它不隨 N、D 變動。Shannon 框架的根本差異就在這裡:它讓雜訊變成一個可以隨擾動而長大的量。量化把它調大、過訓練的記憶化把它調大,於是 SNR 隨之掉,盆地隨之出現。

親手把曲線掰彎——sweep 參數與 token,看 loss 從單調變 U 型

抽象講夠了。下面這個 widget 把 Shannon Scaling Law 的 loss 形狀做成可以拖的東西。橫軸是訓練 token D(從少到多),縱軸是 loss。你有三個把手:

  • 參數量 N(對應 bandwidth)——往上拉,整條曲線往下平移、capacity 上限抬高。
  • 雜訊水平(intrinsic noise)——這是關鍵把手。它決定 SNR 隨 D 上升時是被「保住」還是「被稀釋」。

把雜訊維持在低檔,你會看到一條乖乖往下、趨近地板的曲線——這就是 Chinchilla 描述的世界。慢慢把雜訊推高,注意曲線右半邊:在某個 token 數之後它開始掉頭往上,盆地浮現。那個最低點就是「該停下來的 token 預算」;繼續往右訓,你在用 compute 買 loss 上升。這正是 catastrophic overtraining 在這套理論裡的長相。

拖兩條滑桿,看 loss 曲線從單調變 U 型 · 2 sliders

N = 40
low
訓練 token D(log scale,越往右越多) loss(越低越好) Shannon Scaling Law 古典單調冪次律(Chinchilla)

兩條曲線用同一組 N。綠色虛線是 Chinchilla 形狀——結構上只能單調下降。橙色實線是 Shannon 形狀:noise 低時兩條幾乎重合,noise 一高,橙線右半段掉頭,最低點(橙圈)就是最佳 token 預算,再往右是 catastrophic overtraining 區。

兩條曲線用同一組 N

雜訊升高後曲線在最佳點掉頭,繼續訓是在買 loss 上升——最低點才是該停的 token 預算。

這個 widget 想讓你體會的是 Shannon 框架最反直覺的一句話:盆地不是 fit 出來的人工產物,它是 SNR 守恆失敗的必然後果。雜訊把手一旦過了閾值,盆地必然出現——你不需要手動掰彎曲線,式子的結構自己會生出 U 型。古典冪次律(綠色虛線)無論你怎麼拉 N 都只能平移、不能轉折,這就是它從定義上輸掉 U 型的原因。

需要誠實標註:上面的曲線是用論文描述的形狀(loss = 地板 + 與有效 SNR 反相關的誤差項,SNR 隨 N·D 上升、隨雜訊累積下降)參數化出來的示意,不是論文表格裡的實測點。它讓你摸到「為什麼會有 U 型」這個機制,不宣稱具體數值。真正的實測,下一節用論文的數字講。

三類擾動,同一條盆地——Gaussian noise、quantization、SFT 怎麼壓低 SNR

一個理論光能畫出漂亮形狀不算數,得在真實模型上對得上資料。論文的驗證跑在兩個公開模型家族上——Pythia(EleutherAI 那套從小到大、訓練過程公開的系列)與 OLMo2(AllenAI 的開放模型)。它在這兩家上施加三類擾動,每一類都從不同方向壓低 SNR,但論文聲稱它們最後都導向同一條 U 型盆地。下面的 tab 把三類擾動拆開講。

切換分頁比較三類擾動怎麼壓低 SNR · 3 tabs

直接往權重或激活值加高斯雜訊,是最乾淨的對照組——它讓你把雜訊功率 N 當成一個旋鈕,明確調大、看 SNR 怎麼掉。這對應 Shannon-Hartley 裡那個背景雜訊項最字面的版本。論文用它驗證一件事:當你能精準控制雜訊功率時,loss 的盆地深度與位置應該能被 SNR 公式預測。這是最能直接檢驗「SNR ∝ N·D」這個假設的設定,因為其他變因都被鎖死,只剩雜訊在動。

把訓好的權重壓成低位寬(4-bit、3-bit、2-bit)不是無損的——每個權重被 round 到最近的量化格點,差值就是量化雜訊。位寬砍得越兇,雜訊功率越大,SNR 越低。關鍵的二階效應在這裡:一個訓練得越久、token 餵得越多的模型,權重分布往往越「滿」、越難用少量位元逼近,於是低位寬量化下掉得越慘——「多訓練」反過來放大了量化雜訊。這正是 quantization-induced degradation 的 U 型由來,也是這套理論最實用的一塊:它把「該訓多久」和「該 quantize 到多兇」綁成了同一個 SNR 帳本。

SFT(supervised fine-tuning)在 math、QA、code 三類任務上做。從通道視角看,fine-tune 是往一個已經訓好的通道裡灌新的、分布不同的訊號——如果新訊號與既有表徵衝突,等效於往系統注入雜訊,SNR 下降。論文把 SFT 也納進同一個框架驗證,意義是:它聲稱這條定律不只描述 pretraining,連 post-training 階段的退化也能用同一套 SNR 語言講。三類任務(math/QA/code)覆蓋了難度與分布差異都不同的 fine-tune 情境,是對「普適性」的壓力測試。

三個 tab 的共同骨架是同一句話:每一類擾動都是從某個方向往系統灌雜訊,於是 SNR 下降、盆地出現。Gaussian noise 直接灌、quantization 透過精度損失灌、SFT 透過分布衝突灌——這三種看起來毫不相干的退化,在 Shannon 框架下是同一個量(SNR)在三個入口被壓低的結果。論文報告它在這些設定上「持續勝過古典 scaling law 與近期的 perturbation-aware law」,達到很強的 R² 並抓住前人方法漏掉的 loss 盆地(consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R² scores and accurately capturing loss basins missed by prior approaches)。

這裡有個比較對象值得拎出來:perturbation-aware law(感知擾動的定律)。在 Shannon 之前已經有人意識到古典冪次律對付不了 U 型,於是做了修補——例如針對量化額外加一個與位寬有關的懲罰項。這類定律能 fit 特定一種擾動,但問題是「一種擾動一條補丁」:量化的補丁不能描述 overtraining,SFT 又是另一條式子。Shannon 框架的主張是它不需要對每種擾動各打補丁,因為三者在它眼裡都只是 SNR 下降,用同一個誤差項就吃下去了。論文說它「勝過 recent perturbation-aware laws」比的就是這個——用一條式子同時對得上三類擾動。這也是它能外推的伏筆:只會對特定擾動打補丁的模型,本來就難外推到沒見過的條件。

真正的證據在外推——fit 在 6.9B/180B,預測沒看過的 12B/307B

R² 高其實是個弱證據。任何多兩個自由參數的模型,回頭 fit 同一批資料 R² 都會比較好——這叫 in-sample 過配。一條 scaling law 的真本事在外推:用小模型、少 token 的資料 fit 出參數,去預測一個你訓練時根本沒看過的大模型、長訓練的行為。如果預測站得住,這條定律才算抓到了某種規律而不只是描繪了既有的點。

論文的關鍵實驗就是這個。它的設定是:

// 外推實驗設定(abstract 原文)
fit 資料: Pythia 模型 ≤ 6.9B 參數,≤ 180B token
預測目標: 12B 模型(fit 時完全沒看過),最長到 307B token
結果:     pooled R^2 = 0.847
對照組:   單調冪次律(monotonic baselines)在這個外推下「collapse」

把這四行讀第二遍。fit 用的最大模型是 6.9B、最多 180B token;要預測的是一個 12B 模型在 307B token——參數量幾乎翻倍、token 量接近翻倍,全部落在 fit 範圍之外。Shannon Scaling Law 在這個純外推的設定下,pooled(彙整多個條件)的 R² = 0.847。而論文用的字是 monotonic baselines「collapse」——古典冪次律在這裡不是準度差一點,是整個垮掉。原因前面講過:12B/307B 這個區域已經進入盆地的上升段,單調定律從結構上畫不出上升,只能一路向下偏離真實點。

「pooled R²」也值得拆一下。pooled 是把多個擾動條件、多個 token 切片的預測誤差全部彙整起來算一個 R²,而不是挑一條最漂亮的曲線報——只要有任一條件外推歪掉就會被拉下來。在這種嚴苛口徑下還能拿到 0.847,比「cherry-pick 條件下 R²=0.99」有說服力得多。直觀意思是:12B 模型那一整片(含外推)loss 的變異,大約 85% 能被這條定律解釋掉。對純外推、跨多條件的預測,這是相當強的數字。

反過來看 collapse 為什麼是必然。單調冪次律的參數在豎線左側(≤180B、loss 還在下降的那段)fit 出來,那段資料完全沒有「上揚」的訊息,所以 fit 出來的 beta 一定是正的、曲線一定繼續往下鑽。等實測點在 200B 之後上揚,冪次律手上根本沒有描述上揚的項,只會固執地往下延伸——外推越遠、差越多。這不是 fit 技術問題,是 model class 的表達力問題:你不能用只會畫單調曲線的函數族,去外推一條會轉折的真實曲線。Shannon 接得住,正因為它的函數族內建了轉折的可能。

下面這張圖把這件事畫成「預測 vs 實測」。橫軸是訓練 token,縱軸是 loss。圓點是 12B 模型的實測 loss(隨 token 增加先降後揚的盆地形狀);橙線是 Shannon Scaling Law 純用 ≤6.9B/≤180B 資料外推出來的預測;綠色虛線是單調冪次律的外推。看綠線怎麼在盆地右半段一路向下、與實測點越拉越開——那就是 abstract 說的 collapse。

示意外推對照:圓點是 12B 模型實測的盆地形狀,橙線是 Shannon Scaling Law 用 ≤6.9B/≤180B 外推(pooled R²=0.847),綠虛線是單調冪次律外推。fit 範圍與外推範圍以豎直分隔線標出。形狀依論文 abstract 描述參數化繪製,非逐點還原表格。

示意外推對照:圓點是 12B 模型實測的盆地形狀,橙線是 Shannon Scaling Law 用 ≤6.9B/≤1…

用 ≤6.9B/≤180B 資料外推 12B/307B,Shannon 法則 pooled R²=0.847,單調冪次律在上升段徹底崩潰。

這張圖要你看的不是「橙線多貼」,而是「綠線多偏」。fit 範圍內(豎線左側)三者都貼著實測點——大家都在這裡 fit 過。分水嶺在豎線右側的外推區:實測 loss 開始上揚,橙線跟著轉折、咬住盆地,綠線卻因為結構上只能下降而一路鑽到實測點下方,誤差越拉越大。這條外推能力比 in-sample 的 R² 重要得多——它意味著你可以用小規模實驗去預估大規模訓練的最佳停點。

它是什麼、不是什麼——一條有資訊論故事的擬合定律

最後把這條定律放回它該在的位置,免得用錯。

先講它不是什麼。它不是從第一性原理推導出來的定理。Shannon-Hartley 對物理通道是嚴格的數學結論,但「LLM 參數 = 頻寬」「訓練 token = 訊號功率」這兩條映射是類比,不是證明出來的等式——論文沒從 transformer 的數學結構推出 capacity = bandwidth·log2(1+SNR) 必然成立,而是借用這個形狀當一個帶資訊論故事的擬合(phenomenological)模型。所以這是「fit 得很好、又有說得通的物理直覺撐腰」的定律,不是「被證明的定律」。把它當 Chinchilla 的同類,而不是熱力學第二定律那種層級的東西。

那它什麼、為什麼仍然值得記住?因為它把三件原本各說各話的事收進同一個帳本:

  • 它有「往上」的自由度。 古典冪次律從結構上只能單調下降,遇到 overtraining 與量化退化的 U 型只能投降。Shannon 形狀內建了 SNR 被稀釋時的轉折,所以同一條式子能描述「該停的點」在哪。
  • 它把 pretraining 時長與量化激進度綁進同一個 SNR 量。 對要做決策的工程師,這是最實用的一點——「該訓多久」和「能 quantize 到多兇」不再是兩個獨立直覺,而是同一個 SNR 預算的兩種花法。多訓的 token 若把權重分布撐得更滿,留給低位寬量化的 SNR 餘裕就更少。
  • 它外推得住。 用 ≤6.9B/≤180B fit、預測 12B/307B 拿到 pooled R²=0.847,而單調基線 collapse。能外推,代表它抓到的不只是既有點的形狀。

對下週要動手的人,落地建議很具體。規劃長訓練時:別假設「token 越多越好」,用小規模跑出 loss-vs-token 曲線,看盆地最低點在哪、把那當停點,別盲目燒到預算尾巴去買 loss 反彈。做激進量化(3-bit、2-bit)時:把「這個模型訓了多久」納入評估——訓得越久的模型低位寬下退化風險越高,因為 SNR 餘裕已被 pretraining 吃掉一部分。這兩件事過去靠經驗法則拍腦袋,現在至少有一個統一的量(SNR)可以推理。

當然,所有這些都建立在「這兩條映射夠接近真實」這個前提上,而那是個經驗問題,不是定理。論文目前驗證的是 Pythia 與 OLMo2 兩個家族、最大到 12B;它在 70B、在 MoE、在不同 tokenizer 上會不會一樣準,是公開的問題。把它當一個好用的決策工具,同時記著它的 footing 是類比而非推導,是看這篇論文最健康的姿勢。

Take-away:把訓練想成有雜訊的通道——loss 不會永遠下降,只會降到「訊號被你自己灌進去的雜訊蓋過」的那一點;overtraining 與量化退化,是同一條 SNR 在不同入口被稀釋的兩張臉。