vatt'ghern jaskier's ballads

你手上有 67 個前沿模型,把它們用 routing、voting、cascade、mixture-of-agents 各種花式併起來,準確率卻像撞到一塊看不見的玻璃——再怎麼加模型、再怎麼調投票,就是上不去。那塊玻璃有名字,叫 β。

多模型併用的共同失誤天花板——準確率為什麼卡在 1−β

多個 LLM 併起來用,是這兩年最直覺也最常被當「免費午餐」的招式:一個模型有盲點,那就多找幾個來投票、按題分流、不夠強再升級到更貴的模型。背後的信念很樸素——模型各有所長,組合起來總比單打獨鬥強。Josef Chen 在 2026 年 6 月 25 日投到 arXiv 的一篇論文裡,把這個信念拿來認真量了一遍,標題就把結論寫在臉上:「When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models」。這篇文章要解的是一道謎題:為什麼把一堆夠強的模型併起來,準確率還是上不去?我們會逐一檢驗你大概也想得到的那幾個解法(加更多模型?投票?路由?),看著它們一個個落空,最後落在一個結構性的、躲不掉的天花板上。

謎題:模型明明各有所長,組合卻贏不過最強的那個

先把那塊玻璃描清楚。論文給的天花板定義句很短,但每個字都得當真:「accuracy cannot exceed one minus beta, where beta is the rate at which every model is wrong on the same query。」β 不是某個模型的錯誤率,而是「所有模型在同一題上同時答錯」的比率。只要有 β 比例的題目,你手上每一個模型都栽了,那麼任何組合策略——投票、分流、升級——都不可能把這些題救回來,因為池子裡根本沒有一個正確答案可以選。準確率的上界就被釘死在 1−β。論文把這條寫成不等式:「accuracy ≤ 1−β」,而且強調它對 routing、voting、cascade、mixture-of-agents 一視同仁。

這就是謎題的尖銳之處。你直覺以為「模型多 → 集體全錯的機會小 → 天花板高」,但這個推論偷偷假設了模型之間的錯誤是獨立的。真實的前沿模型不獨立:它們在相近的資料上訓練、共享相似的弱點,所以「大家一起錯同一題」這件事,比獨立假設預測的常見得多。值得停下來想清楚這個 1−β 的不等式為什麼是上界,而不只是某種經驗趨勢。把題目分成兩堆:一堆是「至少有一個模型答對」,一堆是「所有模型都答錯」,後者佔比正好是 β。組合系統不管多聰明,它做的事情本質上就是在每一題上挑一個成員的答案輸出。對前一堆題,它有機會挑中對的(挑不挑得到要看路由與投票的本事);對後一堆題,池子裡根本沒有正確答案,它挑什麼都是錯。所以無論策略多強,它的準確率最多就是「全部第一堆題都挑對」,也就是 1−β。這不是統計上的近似,是邏輯上的硬上界。

下面這個 widget 讓你親手把這個落差拉出來。左邊的滑桿是模型數 k,右邊是每個模型各自的準確率 p;橙線是「假設錯誤獨立」算出來的樂觀天花板 1−(1−p)k,綠線是真實世界裡會發生的、被共同失誤卡住的天花板 1−β。拖拖看,你會發現橙線一路衝向 1,綠線卻很快就攤平——攤平的高度,就是 1−β。獨立假設的危險就藏在橙線的弧度裡:它告訴你「再加幾個模型就逼近滿分了」,這個承諾在前沿模型彼此高度相關的現實裡從來兌現不了。

drag k and p to watch the optimistic curve diverge from the 1−β ceiling · 2 sliders

17
0.80
k (併用的模型數,1 → 67) ↑ 準確率天花板 1.0 0.5 0 獨立假設 1−(1−p)ᵏ(樂觀) 真實天花板 1−β(攤平)
橙線假設模型錯誤彼此獨立,所以加模型就一路逼近 1;綠線把共同失誤算進去,很快攤平在 1−β。兩線之間的縫,就是「以為加模型有用」與「實際撞到天花板」的差距。p 與 β 的關係此處取論文觀測到的非獨立程度作示意,數量級依數學設定的觀測 β=0.052 校準。

玩過一輪你會抓到重點:橙線的形狀是個謊言,因為它假設模型獨立。問題不是天花板有多高,而是它存在,而且加模型推不動它。接下來幾節,就是把每個你可能拿來推這塊天花板的工具,逐一試一遍。

假設一:再加幾個模型,總能補上漏洞吧?

最自然的第一招:既然某些題大家都錯,那就再找模型來補。論文對這招的回答乾脆得近乎無情——「Gains come from models failing on different questions, not from adding more models。」增益的來源從來不是「模型多」,而是「模型在不同題上出錯」。這兩件事看起來像,其實天差地遠。

差在哪?回到 β 的定義:它是「所有模型同時答錯同一題」的比率。你新加一個模型,如果它栽的題目跟既有模型高度重疊(前沿模型彼此很像,這是常態),那麼那批「大家一起錯」的題,它也照樣錯——β 紋風不動,天花板原地踏步。只有當新模型在別人錯、它對的題上補進來,β 才會掉。換句話說,能推動天花板的不是數量,是互補性。一個跟現有陣容犯一樣錯的第 68 個模型,對 β 的貢獻是零。順著這個邏輯,與其假設「多樣性」會自動改善 ensemble,不如把力氣花在找真正互補的模型集合。所謂互補,量化下來就是「在不同題上失敗」,也就是壓低 β。

這裡有個容易被忽略的後果:互補性是會枯竭的資源。前沿模型愈練愈像,能力分布愈來愈收斂,能找到「在你錯的題上偏偏對」的模型本來就難,而且隨著整個領域變強,這種互補對只會愈來愈稀有。也就是說,加模型的邊際效益不只是遞減,是趨近於零——你愈往陣容裡塞同質的強模型,β 愈紋風不動。真正有價值的是那些「強在別處、弱點不重疊」的模型,哪怕它整體分數略低。這個視角會直接改變你選模型的標準:不是挑單題最高分的,而是挑跟現有陣容失敗模式最不一樣的。

假設一落空。加模型本身不解決問題,除非加進來的是真正互補的模型。那麼,換個策略——不靠數量,靠投票與分流,行不行?

假設二:用 ρ 量一量模型的相關性,不就能預測風險了嗎?

退一步想:既然關鍵是「模型會不會一起錯」,那我量一下模型之間的錯誤相關性不就好了?這正是業界最常用的診斷——pairwise error correlation,也就是 ρ。兩個模型錯得愈像,ρ 愈高;ρ 低就代表它們互補、合在一起應該安全。聽起來無懈可擊。論文恰恰在這裡埋了一顆地雷。

關鍵句是這個反例:「error laws with identical marginals and pairwise correlations can have different all-wrong rates。」翻成白話:兩套 error 結構,可以有完全相同的 marginal(每個模型各自的錯誤率一樣)、完全相同的兩兩 ρ,卻有不同的 all-wrong rate——也就是不同的 β。這意味著 ρ 根本決定不了 β。你把所有 pairwise ρ 都量好、都很低、報告做得漂漂亮亮,β 仍然可能高得嚇人,因為 β 是由錯誤的全聯合結構決定的,而 pairwise 相關性只看得到兩兩的影子。下面這個 widget 把這顆地雷拆開:兩組三模型的錯誤結構,marginal 與兩兩相關性故意調成一致,全錯的那一格卻不同。

把虛線詞 ββ(beta)=所有模型在同一 query 上同時答錯的比率,等於全錯那一格的機率。準確率上界=1−β。ρρ(rho)=兩個模型錯誤的 pairwise correlation,只描述「兩兩錯得多像」,看不到三個以上模型一起錯的全聯合結構。 滑過看定義 · 2 個對照

結構 A · 錯誤分散 三個模型 · 圓=各自答錯的題集 三圓交集(全錯)小 → β 小 結構 B · 錯誤集中 同樣的 marginal、同樣的兩兩 ρ 三圓交集(全錯)大 → β 大
每個圓是一個模型答錯的題目集合。兩張圖的圓面積(marginal 錯誤率)與兩兩重疊(pairwise ρ)刻意調成相同,但三圓共同交集那一塊——全部模型同時錯——左小右大。ρ 量不到這塊差異,β 卻完全由它決定。這就是論文說的「相同 marginal 與 pairwise correlation 可以有不同 all-wrong rate」。

這個反例的殺傷力在於:它不是「ρ 不夠準」,而是「ρ 在原理上看不到 β」。pairwise 永遠只看兩兩,β 活在三個以上模型的共同交集裡。一個更直白的講法是:相關係數是二階統計量,它只壓縮了兩兩之間的資訊;而「所有模型同時答錯」是一個高階的聯合事件,要描述它得知道整個聯合分布,不是幾個 ρ 拼得出來的。論文用 Gaussian copula 去從 marginal 加 pairwise ρ 推 β,本身就是業界最常見的近似套路——而它系統性偏低,正說明這條捷徑在前沿模型的相關結構上不可靠。所以用 ρ 當風險診斷的人,會系統性地低估最壞情況——而且不是低估一點點。下一節是實測。

實測:67 個前沿模型,三個 benchmark 全都低估了

反例在數學上成立是一回事,現實裡低估有多嚴重是另一回事。論文跨 67 個前沿模型、在三種評分設定下把 β 量了出來,每一個都把「用獨立/pairwise 假設預測」和「實際觀測」擺在一起比。結果一致到尷尬:預測的 β 全部偏低。

最乾淨的對照在 open-ended 數學:觀測到的 β 是 0.052,而把全部 67 個模型套上 Gaussian copula 算出來的預測 β 只有 0.023——論文形容這是「about 2.5 times underpricing」,足足低估了約 2.5 倍。換句話說,你照獨立假設以為「大家一起錯」只會發生在 2.3% 的題上,現實是 5.2%,天花板比你以為的低一截。同一個低估在另外兩個設定也照樣出現:execution-graded 的程式碼,β 量到 0.079;GPQA-Diamond 的 free-response 格式、配五個評審,β 高達 0.127(評審之間的一致性 kappa 落在 0.73 到 0.92,不是隨便打分打出來的數字)。下面把這三個 benchmark 的觀測 β 一字排開——數學那一格還疊上獨立假設的預測值,讓你直接看到那道 2.5 倍的縫。

observed co-failure β across 3 benchmarks, math also shows the predicted bar · 3 benchmarks

↑ 共同失誤率 β 0 0.025 0.050 0.075 0.100 0.125 0.023 0.052 open-ended 數學 預測 0.023 vs 觀測 0.052 0.079 execution-graded code 0.127 GPQA-Diamond(五評審) free-response · kappa 0.73–0.92 獨立假設預測 實際觀測
三個 benchmark 的觀測 β(橙),以及數學設定下獨立假設預測的 β(灰)。數字逐字取自論文:math 預測 0.023、觀測 0.052;code 觀測 0.079;GPQA-Diamond 觀測 0.127。觀測值愈往右愈高——任務愈開放、評分愈鬆,模型一起栽的機會愈大。

把這幾個數連起來看,趨勢比單點更有意思:任務愈開放、評分愈主觀,β 愈大。數學有明確對錯,β 0.052 還算低;程式碼要過 execution,0.079;到了 GPQA-Diamond 這種要靠評審判讀的 free-response,β 衝到 0.127——也就是準確率天花板被壓到 0.873。低估的幅度同樣不容小覷:論文在 k=17 個模型時給出低估倍數的 90% 信賴區間是 1.7 到 3.4 倍。最樂觀的一端,你也低估了 1.7 倍;最糟那端,你的風險評估錯了 3.4 倍。靠 ρ 拍胸脯說「我的模型很互補、組合很安全」,在這個區間裡都是危險的。

解答:天花板是 error 的全聯合結構,先用 Clopper-Pearson 把它量出來

謎題到這裡收束。我們試過加模型(被「增益來自不同題上失敗,不是加模型」推翻)、試過用 ρ 診斷(被「相同 marginal 與 ρ 可以有不同 all-wrong rate」的反例推翻),最後落在同一個地方:準確率上不去,是因為有 β 比例的題目所有模型一起栽,而這個 β 由錯誤的全聯合結構決定,不是任何 pairwise 量或模型數量能推動的。routing、voting、cascade、mixture-of-agents 全都被同一道 1−β 卡住,因為它們都只是在「有人答對」的題上做選擇,對「沒人答對」的題無能為力。

那工程上該怎麼辦?論文給的不是又一個更花俏的路由演算法,而是一個量測動作:用 Clopper-Pearson 界,在你自己的資料、你自己的模型陣容上,把 β 的信賴區間直接算出來。Clopper-Pearson 是二項比例的精確區間,正適合「N 題裡有幾題全錯」這種計數估計,而且它在樣本少、β 小的時候不會給你虛假的安心。為什麼非要用精確區間?因為 β 通常很小(前面看到數學設定只有 0.052),而小比例的估計最容易被常見的常態近似坑——當全錯的題只有寥寥幾題,常態近似會給出過窄、甚至跨過零的區間,讓你誤判風險。Clopper-Pearson 不靠近似,直接從二項分布算出保守的上下界,正好對應「最壞情況下我的天花板可能多低」這個你真正想知道的問題。先把 1−β 這個天花板量出來,你才知道自己離天花板還有多遠——如果單一最強模型的準確率已經貼著 1−β,那再複雜的路由都只是在天花板底下搬椅子。

這也直接決定了資源該往哪裡花。論文的實務判斷很硬:「combining models rarely beats the single best model without a strong query-level routing signal」。沒有強的 query 級路由訊號——也就是你沒辦法在看到題目當下就準確判斷該交給哪個模型——組合很少贏過單一最強模型。多數團隊以為自己缺的是更聰明的路由器,其實缺的是「在不同題上出錯的模型集合」。下面這張圖把整條推理鏈收成四級階梯:你想得到的每個解法,最後都靠在 β 這道牆上。

click each rung to see why that fix hits the same β wall · 4 hypotheses

四種「推天花板」的嘗試,最後都靠回同一道 β 牆

四種「推天花板」的嘗試,最後都靠回同一道 β 牆 1 − β 天花板 ① 加更多模型 和現有陣容犯一樣錯的新模型,對全錯集合沒貢獻——數量不是互補。 不動 β ② 多數投票 投票只能在「有人答對」的題上挑出對的;全錯的題沒有正確票可投。 受限 1−β ③ query 級路由 路由能逼近 1−β,但推不高它;沒有強訊號時,組合很少贏過最強單模型。 需強訊號 ④ 共同失誤天花板 1−β β 由 error 的全聯合結構決定,ρ 看不到;先用 Clopper-Pearson 量出來。 結構性

點任一階(手機可點卡片)看它怎麼撞牆

① 加更多模型

論文原句:「Gains come from models failing on different questions, not from adding more models。」第 68 個模型若跟既有陣容錯在同一批題,β 完全不動,天花板原地不前。能降 β 的只有互補性,不是頭數。

② 多數投票

投票(含加權、評審面板)的本事,是在「池子裡有人答對」的題上把正確答案撈出來。但 β 比例的題目所有成員都錯,沒有正確票可投——這些題對任何投票規則都是死局。準確率因此封頂於 1−β。

③ query 級路由

好的路由能把每題交給最可能答對的模型,逼近 1−β,卻推不高 1−β 本身。論文的判斷是:沒有強的 query 級路由訊號(看題即知該找誰),組合很少贏過最強的單一模型。

④ 共同失誤天花板 1−β

前三招都撞同一道牆,因為 β 是 error 的全聯合結構,pairwise ρ 在原理上看不到它(相同 marginal 與 ρ 可以有不同 all-wrong rate)。實務做法不是更花俏的路由,而是先用 Clopper-Pearson 界量出自己的 β,再決定要不要投資組合。

把這道天花板放進日常決策,它其實很解放。下次又有人提議「我們再接幾個模型、加個投票層、做個聰明路由器,準確率應該能再上去」,你手上就有一個一行的反問:你量過 β 了嗎?如果沒有,先花一個下午用 Clopper-Pearson 把 1−β 算出來,再看單一最強模型離它多遠。那個差距,才是組合策略全部的可發揮空間——往往比想像中小得多。

Take-away:下次要投資多模型 routing / voting 之前,先用 Clopper-Pearson 界量出你自己的共同失誤天花板 1−β——別用 pairwise ρ 估,它在原理上看不到全錯結構、實測低估 1.7 到 3.4 倍;沒有強 query 級路由訊號,把資源花在找互補(在不同題上出錯)的模型,而不是優化路由。