你手上有 67 個前沿模型，把它們用 routing、voting、cascade、mixture-of-agents 各種花式併起來，準確率卻像撞到一塊看不見的玻璃——再怎麼加模型、再怎麼調投票，就是上不去。那塊玻璃有名字，叫 β。

多模型併用的共同失誤天花板——準確率為什麼卡在 1−β

把多個 LLM 併起來用，是這兩年最直覺也最常被當「免費午餐」的招式：一個模型有盲點，那就多找幾個來投票、按題分流、不夠強再升級到更貴的模型。背後的信念很樸素——模型各有所長，組合起來總比單打獨鬥強。Josef Chen 在 2026 年 6 月 25 日投到 arXiv 的一篇論文裡，把這個信念拿來認真量了一遍，標題就把結論寫在臉上：「When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models」。這篇文章要解的是一道謎題：為什麼把一堆夠強的模型併起來，準確率還是上不去？我們會逐一檢驗你大概也想得到的那幾個解法（加更多模型？投票？路由？），看著它們一個個落空，最後落在一個結構性的、躲不掉的天花板上。

謎題：模型明明各有所長，組合卻贏不過最強的那個

先把那塊玻璃描清楚。論文給的天花板定義句很短，但每個字都得當真：「accuracy cannot exceed one minus beta, where beta is the rate at which every model is wrong on the same query。」β 不是某個模型的錯誤率，而是「所有模型在同一題上同時答錯」的比率。只要有 β 比例的題目，你手上每一個模型都栽了，那麼任何組合策略——投票、分流、升級——都不可能把這些題救回來，因為池子裡根本沒有一個正確答案可以選。準確率的上界就被釘死在 1−β。論文把這條寫成不等式：「accuracy ≤ 1−β」，而且強調它對 routing、voting、cascade、mixture-of-agents 一視同仁。

這就是謎題的尖銳之處。你直覺以為「模型多 → 集體全錯的機會小 → 天花板高」，但這個推論偷偷假設了模型之間的錯誤是獨立的。真實的前沿模型不獨立：它們在相近的資料上訓練、共享相似的弱點，所以「大家一起錯同一題」這件事，比獨立假設預測的常見得多。值得停下來想清楚這個 1−β 的不等式為什麼是上界，而不只是某種經驗趨勢。把題目分成兩堆：一堆是「至少有一個模型答對」，一堆是「所有模型都答錯」，後者佔比正好是 β。組合系統不管多聰明，它做的事情本質上就是在每一題上挑一個成員的答案輸出。對前一堆題，它有機會挑中對的（挑不挑得到要看路由與投票的本事）；對後一堆題，池子裡根本沒有正確答案，它挑什麼都是錯。所以無論策略多強，它的準確率最多就是「全部第一堆題都挑對」，也就是 1−β。這不是統計上的近似，是邏輯上的硬上界。

下面這個 widget 讓你親手把這個落差拉出來。左邊的滑桿是模型數 k，右邊是每個模型各自的準確率 p；橙線是「假設錯誤獨立」算出來的樂觀天花板 1−(1−p)^k，綠線是真實世界裡會發生的、被共同失誤卡住的天花板 1−β。拖拖看，你會發現橙線一路衝向 1，綠線卻很快就攤平——攤平的高度，就是 1−β。獨立假設的危險就藏在橙線的弧度裡：它告訴你「再加幾個模型就逼近滿分了」，這個承諾在前沿模型彼此高度相關的現實裡從來兌現不了。

drag k and p to watch the optimistic curve diverge from the 1−β ceiling · 2 sliders

模型數 k = 17

每模型準確率 p = 0.80

橙線假設模型錯誤彼此獨立，所以加模型就一路逼近 1；綠線把共同失誤算進去，很快攤平在 1−β。兩線之間的縫，就是「以為加模型有用」與「實際撞到天花板」的差距。p 與 β 的關係此處取論文觀測到的非獨立程度作示意，數量級依數學設定的觀測 β=0.052 校準。

玩過一輪你會抓到重點：橙線的形狀是個謊言，因為它假設模型獨立。問題不是天花板有多高，而是它存在，而且加模型推不動它。接下來幾節，就是把每個你可能拿來推這塊天花板的工具，逐一試一遍。

假設一：再加幾個模型，總能補上漏洞吧？

最自然的第一招：既然某些題大家都錯，那就再找模型來補。論文對這招的回答乾脆得近乎無情——「Gains come from models failing on different questions, not from adding more models。」增益的來源從來不是「模型多」，而是「模型在不同題上出錯」。這兩件事看起來像，其實天差地遠。

差在哪？回到 β 的定義：它是「所有模型同時答錯同一題」的比率。你新加一個模型，如果它栽的題目跟既有模型高度重疊（前沿模型彼此很像，這是常態），那麼那批「大家一起錯」的題，它也照樣錯——β 紋風不動，天花板原地踏步。只有當新模型在別人錯、它對的題上補進來，β 才會掉。換句話說，能推動天花板的不是數量，是互補性。一個跟現有陣容犯一樣錯的第 68 個模型，對 β 的貢獻是零。順著這個邏輯，與其假設「多樣性」會自動改善 ensemble，不如把力氣花在找真正互補的模型集合。所謂互補，量化下來就是「在不同題上失敗」，也就是壓低 β。

這裡有個容易被忽略的後果：互補性是會枯竭的資源。前沿模型愈練愈像，能力分布愈來愈收斂，能找到「在你錯的題上偏偏對」的模型本來就難，而且隨著整個領域變強，這種互補對只會愈來愈稀有。也就是說，加模型的邊際效益不只是遞減，是趨近於零——你愈往陣容裡塞同質的強模型，β 愈紋風不動。真正有價值的是那些「強在別處、弱點不重疊」的模型，哪怕它整體分數略低。這個視角會直接改變你選模型的標準：不是挑單題最高分的，而是挑跟現有陣容失敗模式最不一樣的。

假設一落空。加模型本身不解決問題，除非加進來的是真正互補的模型。那麼，換個策略——不靠數量，靠投票與分流，行不行？

假設二：用 ρ 量一量模型的相關性，不就能預測風險了嗎？

退一步想：既然關鍵是「模型會不會一起錯」，那我量一下模型之間的錯誤相關性不就好了？這正是業界最常用的診斷——pairwise error correlation，也就是 ρ。兩個模型錯得愈像，ρ 愈高；ρ 低就代表它們互補、合在一起應該安全。聽起來無懈可擊。論文恰恰在這裡埋了一顆地雷。

關鍵句是這個反例：「error laws with identical marginals and pairwise correlations can have different all-wrong rates。」翻成白話：兩套 error 結構，可以有完全相同的 marginal（每個模型各自的錯誤率一樣）、完全相同的兩兩 ρ，卻有不同的 all-wrong rate——也就是不同的 β。這意味著 ρ 根本決定不了 β。你把所有 pairwise ρ 都量好、都很低、報告做得漂漂亮亮，β 仍然可能高得嚇人，因為 β 是由錯誤的全聯合結構決定的，而 pairwise 相關性只看得到兩兩的影子。下面這個 widget 把這顆地雷拆開：兩組三模型的錯誤結構，marginal 與兩兩相關性故意調成一致，全錯的那一格卻不同。

把虛線詞 ββ（beta）＝所有模型在同一 query 上同時答錯的比率，等於全錯那一格的機率。準確率上界＝1−β。與 ρρ（rho）＝兩個模型錯誤的 pairwise correlation，只描述「兩兩錯得多像」，看不到三個以上模型一起錯的全聯合結構。滑過看定義 · 2 個對照

每個圓是一個模型答錯的題目集合。兩張圖的圓面積（marginal 錯誤率）與兩兩重疊（pairwise ρ）刻意調成相同，但三圓共同交集那一塊——全部模型同時錯——左小右大。ρ 量不到這塊差異，β 卻完全由它決定。這就是論文說的「相同 marginal 與 pairwise correlation 可以有不同 all-wrong rate」。

這個反例的殺傷力在於：它不是「ρ 不夠準」，而是「ρ 在原理上看不到 β」。pairwise 永遠只看兩兩，β 活在三個以上模型的共同交集裡。一個更直白的講法是：相關係數是二階統計量，它只壓縮了兩兩之間的資訊；而「所有模型同時答錯」是一個高階的聯合事件，要描述它得知道整個聯合分布，不是幾個 ρ 拼得出來的。論文用 Gaussian copula 去從 marginal 加 pairwise ρ 推 β，本身就是業界最常見的近似套路——而它系統性偏低，正說明這條捷徑在前沿模型的相關結構上不可靠。所以用 ρ 當風險診斷的人，會系統性地低估最壞情況——而且不是低估一點點。下一節是實測。

實測：67 個前沿模型，三個 benchmark 全都低估了

反例在數學上成立是一回事，現實裡低估有多嚴重是另一回事。論文跨 67 個前沿模型、在三種評分設定下把 β 量了出來，每一個都把「用獨立／pairwise 假設預測」和「實際觀測」擺在一起比。結果一致到尷尬：預測的 β 全部偏低。

最乾淨的對照在 open-ended 數學：觀測到的 β 是 0.052，而把全部 67 個模型套上 Gaussian copula 算出來的預測 β 只有 0.023——論文形容這是「about 2.5 times underpricing」，足足低估了約 2.5 倍。換句話說，你照獨立假設以為「大家一起錯」只會發生在 2.3% 的題上，現實是 5.2%，天花板比你以為的低一截。同一個低估在另外兩個設定也照樣出現：execution-graded 的程式碼，β 量到 0.079；GPQA-Diamond 的 free-response 格式、配五個評審，β 高達 0.127（評審之間的一致性 kappa 落在 0.73 到 0.92，不是隨便打分打出來的數字）。下面把這三個 benchmark 的觀測 β 一字排開——數學那一格還疊上獨立假設的預測值，讓你直接看到那道 2.5 倍的縫。

observed co-failure β across 3 benchmarks, math also shows the predicted bar · 3 benchmarks

三個 benchmark 的觀測 β（橙），以及數學設定下獨立假設預測的 β（灰）。數字逐字取自論文：math 預測 0.023、觀測 0.052；code 觀測 0.079；GPQA-Diamond 觀測 0.127。觀測值愈往右愈高——任務愈開放、評分愈鬆，模型一起栽的機會愈大。

把這幾個數連起來看，趨勢比單點更有意思：任務愈開放、評分愈主觀，β 愈大。數學有明確對錯，β 0.052 還算低；程式碼要過 execution，0.079；到了 GPQA-Diamond 這種要靠評審判讀的 free-response，β 衝到 0.127——也就是準確率天花板被壓到 0.873。低估的幅度同樣不容小覷：論文在 k=17 個模型時給出低估倍數的 90% 信賴區間是 1.7 到 3.4 倍。最樂觀的一端，你也低估了 1.7 倍；最糟那端，你的風險評估錯了 3.4 倍。靠 ρ 拍胸脯說「我的模型很互補、組合很安全」，在這個區間裡都是危險的。

解答：天花板是 error 的全聯合結構，先用 Clopper-Pearson 把它量出來

謎題到這裡收束。我們試過加模型（被「增益來自不同題上失敗，不是加模型」推翻）、試過用 ρ 診斷（被「相同 marginal 與 ρ 可以有不同 all-wrong rate」的反例推翻），最後落在同一個地方：準確率上不去，是因為有 β 比例的題目所有模型一起栽，而這個 β 由錯誤的全聯合結構決定，不是任何 pairwise 量或模型數量能推動的。routing、voting、cascade、mixture-of-agents 全都被同一道 1−β 卡住，因為它們都只是在「有人答對」的題上做選擇，對「沒人答對」的題無能為力。

那工程上該怎麼辦？論文給的不是又一個更花俏的路由演算法，而是一個量測動作：用 Clopper-Pearson 界，在你自己的資料、你自己的模型陣容上，把 β 的信賴區間直接算出來。Clopper-Pearson 是二項比例的精確區間，正適合「N 題裡有幾題全錯」這種計數估計，而且它在樣本少、β 小的時候不會給你虛假的安心。為什麼非要用精確區間？因為 β 通常很小（前面看到數學設定只有 0.052），而小比例的估計最容易被常見的常態近似坑——當全錯的題只有寥寥幾題，常態近似會給出過窄、甚至跨過零的區間，讓你誤判風險。Clopper-Pearson 不靠近似，直接從二項分布算出保守的上下界，正好對應「最壞情況下我的天花板可能多低」這個你真正想知道的問題。先把 1−β 這個天花板量出來，你才知道自己離天花板還有多遠——如果單一最強模型的準確率已經貼著 1−β，那再複雜的路由都只是在天花板底下搬椅子。

這也直接決定了資源該往哪裡花。論文的實務判斷很硬：「combining models rarely beats the single best model without a strong query-level routing signal」。沒有強的 query 級路由訊號——也就是你沒辦法在看到題目當下就準確判斷該交給哪個模型——組合很少贏過單一最強模型。多數團隊以為自己缺的是更聰明的路由器，其實缺的是「在不同題上出錯的模型集合」。下面這張圖把整條推理鏈收成四級階梯：你想得到的每個解法，最後都靠在 β 這道牆上。

click each rung to see why that fix hits the same β wall · 4 hypotheses

四種「推天花板」的嘗試，最後都靠回同一道 β 牆

① 加更多模型不動 β

和現有陣容犯一樣錯的新模型，對全錯集合沒貢獻——數量不是互補。
② 多數投票受限 1−β

投票只能在「有人答對」的題上挑出對的；全錯的題沒有正確票可投。
③ query 級路由需強訊號

路由能逼近 1−β，但推不高它；沒有強訊號時，組合很少贏過最強單模型。
④ 共同失誤天花板 1−β結構性

β 由 error 的全聯合結構決定，ρ 看不到；先用 Clopper-Pearson 量出來。

點任一階（手機可點卡片）看它怎麼撞牆

① 加更多模型

論文原句：「Gains come from models failing on different questions, not from adding more models。」第 68 個模型若跟既有陣容錯在同一批題，β 完全不動，天花板原地不前。能降 β 的只有互補性，不是頭數。

② 多數投票

投票（含加權、評審面板）的本事，是在「池子裡有人答對」的題上把正確答案撈出來。但 β 比例的題目所有成員都錯，沒有正確票可投——這些題對任何投票規則都是死局。準確率因此封頂於 1−β。

③ query 級路由

好的路由能把每題交給最可能答對的模型，逼近 1−β，卻推不高 1−β 本身。論文的判斷是：沒有強的 query 級路由訊號（看題即知該找誰），組合很少贏過最強的單一模型。

④ 共同失誤天花板 1−β

前三招都撞同一道牆，因為 β 是 error 的全聯合結構，pairwise ρ 在原理上看不到它（相同 marginal 與 ρ 可以有不同 all-wrong rate）。實務做法不是更花俏的路由，而是先用 Clopper-Pearson 界量出自己的 β，再決定要不要投資組合。

把這道天花板放進日常決策，它其實很解放。下次又有人提議「我們再接幾個模型、加個投票層、做個聰明路由器，準確率應該能再上去」，你手上就有一個一行的反問：你量過 β 了嗎？如果沒有，先花一個下午用 Clopper-Pearson 把 1−β 算出來，再看單一最強模型離它多遠。那個差距，才是組合策略全部的可發揮空間——往往比想像中小得多。

Take-away：下次要投資多模型 routing / voting 之前，先用 Clopper-Pearson 界量出你自己的共同失誤天花板 1−β——別用 pairwise ρ 估，它在原理上看不到全錯結構、實測低估 1.7 到 3.4 倍；沒有強 query 級路由訊號，把資源花在找互補（在不同題上出錯）的模型，而不是優化路由。