vatt'ghern jaskier's ballads
本文 1 個互動圖表在手機上以重點摘要呈現,互動版請以桌面瀏覽器開啟。

Artificial Analysis 把開放權重的領頭羊換成了 Z.ai 的 GLM-5.2——但對一個正在評估自架模型的團隊來說,「登頂排行榜」這四個字解答的問題,比它看起來的要少得多。

GLM-5.2 登頂開放權重智慧指數

GLM-5.2 在 Artificial Analysis Intelligence Index 上拿到 51 分,成為這份指數上分數最高的開放權重模型。按 Artificial Analysis 的排名,它領先 MiniMax-M3(44)、DeepSeek V4 Pro max(44)與 Kimi K2.6(43)。對任何盯著「能不能自己架一套不輸閉源」的團隊,這是一個值得停下來看的時刻。但把這件事讀成「現在該換成 GLM-5.2」是一種常見的誤讀。一份綜合智慧指數回答的是「平均而言誰比較聰明」,而選型要回答的是「在我這套延遲預算、context 需求、授權限制與硬體條件下,誰最划算」——這兩個問題只有部分重疊。

這篇文章不打算替 GLM-5.2 抬轎。它要做的是把這份排名拆開:指數衡量了什麼、刻意不衡量什麼,以及「在開放權重裡登頂」這件事在實務選型上到底代表多少分量。先把競賽場拉開來看。

下面這張圖把 GLM-5.2 放回它所在的座標系。預設顯示的是 Intelligence Index 本身,你可以切換到 GDPval-AA v2(一個對齊真實工作任務的評分)以及每題成本(cost per task),看同一批模型在不同軸上的相對位置怎麼移動。重點不是哪根長條最高,而是當你換一個衡量標準,名次會不會跟著換。

switch metric to re-rank the same models · 3 metrics

Artificial Analysis Intelligence Index(越高越好)
資料:Artificial Analysis(2026-06-17)。Intelligence Index 與 GDPval-AA v2 越高越好;cost / task 越低越好,故該軸刻意反向,最便宜者長條最長。閉源前沿僅以 GPT-5.5(xhigh reasoning)在 GDPval-AA v2 上的 1514 作對照點,其餘軸 Artificial Analysis 未給出可直接並列的同口徑數字。

切到 cost / task 那一軸時排序變了,是因為這軸上 Artificial Analysis 只給了 GLM-5.2 自己的數字(約 0.46 美元一題),其餘對手沒有同口徑的公開值。這件事本身就是第一個教訓:榜單上一個漂亮的綜合分數,往往不附帶你選型時真正要算的那幾個數。下面四個 H2 各拆一條軸。

指數衡量的那一格:綜合智慧,而且偏推理

Artificial Analysis Intelligence Index 是一個把多項評測折成單一數字的綜合分。GLM-5.2 拿到 51,這個 51 不是某一道題的正確率,而是一籃子任務的加總。看 GLM-5.2 從 5.1 到 5.2 的子項變化,能讀出這個指數的重心壓在哪:CritPt 升 16 分到 21%、HLE 升 12 分到 40%、AA-LCR 升 9 分到 71%、tau3 banking 升 15 分到 27%、SciCode 升 7 分到 50%、TerminalBench v2.1 升 16 分到 78%、GPQA Diamond 升 3 分到 89%。這些子項裡,重度推理與長鏈條任務(HLE、CritPt、AA-LCR)的漲幅最大。

換句話說,這個 51 分主要是被「難推理題」拉上去的。對一個要把模型塞進客服分類、文件抽取、或結構化資料轉換的團隊來說,這些子項的提升未必對得上你的工作量——你的任務可能在 GLM-5.1 甚至更小的模型上就已經飽和,再多的推理深度只是多燒 token。Artificial Analysis 自己也記了一筆相關的代價:GLM-5.2 每道 Intelligence Index 任務用掉約 43k output token,而 GLM-5.1 是 26k。分數漲了,每題吐出的 token 也漲了六成多。

再往下看一層,能更清楚這個 51 分到底把哪些東西折進了同一個數字。Artificial Analysis 在 GLM-5.2 這篇裡列出的子項橫跨好幾種能力面:CritPt 與 SciCode 偏科學與程式推理、HLE 與 GPQA Diamond 偏學科知識的深水區、AA-LCR 偏長鏈條推理、tau3 banking 偏帶工具的 agent 任務、TerminalBench v2.1 偏終端環境裡的實作。把這麼異質的一籃子題折成單一一個 51,本質上是先替每一格挑了權重、再加總——而那組權重不是你的權重。一個指數使用者拿到的是加總後的結果,看不到原本的配重,也就無從判斷那 51 分裡有多少來自你根本不會碰到的能力面。這是所有綜合指數共有的結構:它用「可比一個數」換掉了「可解一筆帳」。

這就是讀綜合指數的第一個紀律:先確認指數的子項分布對得上你的工作量。一個被推理題拉高的綜合分,對推理密集的場景是強訊號,對 throughput 密集的場景幾乎是雜訊。GDPval-AA v2 這條軸值得單獨留意,因為它號稱對齊真實工作任務——GLM-5.2 在這軸上拿 1524,而 Artificial Analysis 描述它「in-line with proprietary models including GPT-5.5 (xhigh reasoning)」,後者是 1514。注意這是 Artificial Analysis 的對照措辭,是「並駕齊驅」這種比較級,不是「超越閉源前沿」的斷言;照搬成後者就是把來源的 hedge 偷偷升級。值得補一句:GDPval-AA v2 與 Intelligence Index 是兩條不同的軸,GLM-5.2 在前者拿 1524、在後者拿 51,這兩個數字不能互相換算,也不能因為一個高就推論另一個的位置——它們各自挑了不同的題、各自配了不同的權重。把兩條軸混為一談,是讀這類榜單時最容易犯的錯。

指數不衡量的那幾格:成本、延遲、context、授權

一份智慧指數的設計目的就是抹掉部署條件,只比「腦力」。這讓它好排名,也讓它在選型上有四個結構性的盲點。第一個是成本。Artificial Analysis 給了 GLM-5.2 的 API 報價——每百萬 token 輸入 1.4 美元、cache hit 0.26 美元、輸出 4.4 美元——以及每題約 0.46 美元的綜合成本。但這是「跑這份 benchmark」的成本,不是你那套工作量的成本。輸出單價是輸入的三倍多,而 GLM-5.2 每題吐 43k token:一個愛長篇推理的模型,在輸出密集的場景會把帳單推得比指數分數暗示的更高。

第二個是延遲與吞吐。指數不計時。但 43k output token 不只是錢,也是 wall-clock 時間——自回歸解碼是逐 token 串行的,43k 個 token 在固定的 tokens/s 下就是固定的牆上時間。一個互動式產品(補全、對話、agent 的每一步)對 time-to-first-token 與 tokens/s 的敏感度,遠高於對綜合智慧多兩分的敏感度。指數高的模型若把分數建立在更長的思考鏈上,等於在延遲帳上預支。

第三個是 context window。這格 Artificial Analysis 與 HuggingFace 的模型卡都有給:GLM-5.2 的 context 從 5.1 的 200K 升到 1M token,模型卡的說法是「Solid 1M-token context that stably sustains long-horizon work」。對要餵整個 codebase、長文件、或多輪 agent 軌跡的團隊,這個 1M 可能比那兩三分綜合智慧更有決定性——而它在綜合指數的單一數字裡完全看不出來。

第四個是授權與可自架性,這恰好是「開放權重」這個詞的全部分量所在。Artificial Analysis 記 GLM-5.2 的授權是 MIT,HuggingFace 模型卡進一步寫「no regional limits」;對一個正在評估自架的團隊,這一格的權重往往不是「加幾分」,而是「能不能進場」的開關。一個閉源 API 就算指數分數更高,只要它的條款不允許你要的部署形態、或它的地區限制把你擋在門外,那麼它在你的選型表上根本不該出現——可自架性是一個前置的硬篩,不是一個可被智慧分數補償的軟加權。綜合指數把這一格設成零,是因為它要的是跨模型可比;但你要的恰恰相反,是先用這一格把不可用的選項全部刪掉,再去比剩下那些的腦力。

把這四格放回一個自架決策裡,權重該怎麼擺其實有跡可循。粗略地說,授權與可自架性是門檻型的條件——過不了就直接出局,過了才有資格往下比;context 是任務型的條件——你的工作量若根本碰不到 200K,那 1M 這格對你就是零分,碰得到才瞬間變成決定性;成本與延遲則是運營型的條件,它們不是一次性的篩選,而是會按你每天的請求量持續累積的帳。Artificial Analysis 給的 0.46 美元一題與 43k output token,是「在它的硬體上跑它的 benchmark」的數字,搬到你的工作量上只能當量級參考,不能當預算。一個務實的次序是:先用門檻型條件刪掉不合格的,再用任務型條件決定 context 這格算不算數,最後才把成本與延遲放到你自己的硬體上實測——而不是反過來,被那個最醒目的 51 分牽著先入為主。下面這張表把指數衡量的格子(智慧)和它不衡量的格子(成本、延遲、context、授權、自架)並排,點 column header 可以重排,方便你照自己的約束把最在意的那欄拉到最上面。

click a column header to sort · 6 rows × 3 columns

選型維度 × 指數是否衡量 × GLM-5.2 的已知值(資料:Artificial Analysis 與 HuggingFace 模型卡,2026-06-17)。
選型維度 指數是否衡量 GLM-5.2 的已知值
綜合智慧是(核心)Intelligence Index 51,居開放權重之首
每題成本約 0.46 美元一題;輸出每百萬 token 4.4 美元
延遲 / 吞吐未公開 tokens/s;每題 43k output token
context window1M token(5.1 為 200K)
授權MIT,模型卡稱「no regional limits」
可自架性744B 總參數 / 40B active;MIT 權重可下載
指數只把第一行做進了那個 51 分;下面五行——也就是選型真正會卡住你的那幾行——指數一格都沒量。744B 與 40B 的數字來自 Artificial Analysis,HuggingFace 模型卡另標 753B;兩者口徑不同,下一節展開。

登頂的代價:5.1 到 5.2,分數換來了什麼

開放權重榜上的領先很少是免費的。把 GLM-5.1 和 GLM-5.2 並排,會發現分數的提升和資源的消耗是一起漲的。下面這個對照——拖動分隔線把右側的 5.2 推開——把幾個成對的數字擺在一起:智慧分、每題 output token、context、AA-Omniscience Index。讀法不是「右邊更好」,而是「右邊更強的同時也更貴」。

drag the divider to push GLM-5.2 over GLM-5.1

GLM-5.1
每題 output token
26k
context window
200K
AA-Omniscience Index
2
HLE
28%
GLM-5.2
每題 output token
43k
context window
1M
AA-Omniscience Index
4
HLE
40%
HLE 由 5.1 推算(5.2 為 40%、Artificial Analysis 記為升 12 分,故 5.1 約 28%)。其餘為 Artificial Analysis 直接給出的值。更高的分數伴隨每題 token 多出六成多。

HLE 由 5.1 推算(5.2 為 40%、Artificial Analysis 記為升 12 分,故 5.1 約…

5.2 分數更高,代價是每題 token 由 26k 漲到 43k——更強也更貴。

這裡有一個需要誠實標記的地方:HLE 的 5.1 數字(約 28%)是從「5.2 為 40%、升了 12 分」回推的,合理的推測是 5.1 約 28%,但 Artificial Analysis 沒有直接列出 5.1 的絕對值。其餘成對數字——26k 對 43k、200K 對 1M、Omniscience 2 對 4——都是來源直接給出的。把這幾對放在一起看,結論很清楚:5.2 的進步是真的,但它換來進步的方式是吐更多 token、吃更大 context、跑更深推理,而這三件事在 production 上全都是錢和時間。

自架那一關:744B MoE 與 MIT 權重之間的距離

「開放權重」的承諾是你能把權重下載下來、自己跑。但從「拿到 MIT 授權的權重」到「在自己的機器上穩定服務」之間,隔著幾道很具體的關卡。先把規格擺清楚:Artificial Analysis 記 GLM-5.2 為 744B 總參數、40B active,與 GLM-5.1 同等;HuggingFace 模型卡則標 753B 參數,且沒有區分 total 與 active。744B 與 753B 的差異我不替它調和——這是兩個來源的不同口徑,選型時該以你實際要部署的那個 checkpoint 的 config 為準,而不是任一篇文章的整數。

重點在「40B active」這個 MoE 特性上。744B 是要載進記憶體的權重總量,40B 才是每個 token 實際走過的參數量。這決定了兩件不同的事:總參數量決定你需要多少 GPU 記憶體(或多大的 offload/量化方案)才放得下,active 參數量決定每 token 的計算量、也就是吞吐。模型卡還提到一個叫 IndexShare 的機制:「reuses the same indexer across every four sparse attention layers, reducing per-token FLOPs by 2.9× at a 1M context length」——這是針對 1M context 下注意力成本的優化,注意它的措辭是「reducing per-token FLOPs by 2.9×」,是 FLOPs 層級的宣稱,不等於端到端延遲也降 2.9 倍;照搬成後者是來源沒說的話。

至於「下載權重之後怎麼跑」,模型卡列出的部署面比規格更實際。下面這張卡片把自架這條路上的幾個關卡攤開:選哪個 serving 引擎、要不要量化、配套硬體。點任一張卡看它對選型的意義。

click any card to read what it means for selection · 4 cards

自架 GLM-5.2 的四道關卡

自架 GLM-5.2 的四道關卡 1 · serving 引擎 SGLang v0.5.13.post1+、vLLM v0.23.0+、Transformers、KTransformers 2 · 量化路線 llama.cpp、Ollama、LM Studio、Jan 有對應量化版 3 · 硬體平台 NVIDIA 為主流;模型卡另點名 Ascend NPU 4 · 授權 MIT,模型卡稱「no regional limits」

點任一道關卡,看它對選型的意義。

serving 引擎

模型卡列出 SGLang(v0.5.13.post1+)、vLLM(v0.23.0+)、Transformers、KTransformers 為支援後端。版本門檻很高表示這是新架構,你的 serving stack 多半要升級到尚新的版本才跑得動,別假設現有的 pin 能直接吃下這個 checkpoint。

量化路線

模型卡提到 llama.cpp、Ollama、LM Studio、Jan 上有量化版。744B 總參數要全精度放進記憶體成本極高,量化是讓單機或小叢集放得下的現實手段——代價是品質可能與榜單上那個 51 分不再對得上,榜單跑的是原始權重。

硬體平台

模型卡點名支援 Ascend NPU,這對需要繞開特定供應鏈的團隊是實質訊號。但 Artificial Analysis 與模型卡都沒給自架的 tokens/s,你得自己在目標硬體上量延遲與吞吐,這正是指數那個 51 分完全沒覆蓋的部分。

授權

MIT 是這次最乾淨的一格:商用、修改、再散布都允許,模型卡強調「no regional limits」。對被前沿閉源 API 的條款或地區限制卡住的團隊,這格可能比那 51 分更有決定性——而它在綜合指數裡完全不出現。

這四關拼起來說的是同一件事:榜單上的 51 分是「原始權重在 Artificial Analysis 的硬體上跑出來的腦力」,而你自架的版本,要先過 serving 引擎的版本門檻、可能還得量化(量化會動到品質)、在你自己的加速器上量出延遲——這一連串之後,你手上那套的實際表現,和榜單那個數字已經不是同一回事。MIT 授權給了你做這件事的權利,但沒給你省掉這些工。

怎麼選:把排名當篩子,不當判決

回到最初那個問題:「GLM-5.2 登頂開放權重」對你的選型代表什麼。它代表一件確定的事和一串需要你自己驗的事。確定的是:在 Artificial Analysis 這份偏推理的綜合指數上,目前開放權重裡 GLM-5.2 分數最高,且在 GDPval-AA v2 上與 GPT-5.5(xhigh reasoning)被描述為並駕齊驅。需要你自己驗的是:成本、延遲、context 夠不夠、量化後還剩多少、你的硬體跑得動嗎——這些指數一格都沒量。

一個能直接用的次序是這樣。先用綜合指數當粗篩:如果你的工作量確實是推理密集(複雜 agent、科學推理、長鏈條規劃),那麼一個被推理題拉高的 51 分是強訊號,GLM-5.2 該進你的候選名單。如果你的工作量是 throughput 密集(分類、抽取、轉換),先別被 51 分吸引,去看更小的開放權重模型在你的任務上是不是已經飽和——多出來的推理深度只會讓你每題多燒那 43k 裡的一大截。接著用四個被指數抹掉的維度做硬約束:context 需求若超過 200K,1M 這格立刻變成決定性優勢;授權若被閉源條款卡住,MIT 這格同樣決定性;延遲與每題成本則必須在你自己的硬體與工作量上實測,榜單的 0.46 美元一題不是你的數字。

至於和閉源前沿的差距,這份資料只給了一個對照點:GDPval-AA v2 上 1524 對 GPT-5.5 的 1514。一個點不足以說「開放權重已追平閉源」,那會是把單一數字過度外推。要明白這個對照點有多窄:它只落在一條軸(GDPval-AA v2)、一個閉源對手(GPT-5.5,且是 xhigh reasoning 這個特定檔位)、一個時間切片(2026-06-17)上,而且 Artificial Analysis 自己的措辭是「in-line」這種並列級,不是領先級。合理的推測是,在 Intelligence Index 那條軸上閉源前沿仍可能站得更前——但這份資料沒有給出可直接並列的同口徑閉源數字,所以這只能停在推測,不能寫成結論。把「在一條軸上與一個閉源檔位並駕齊驅」讀成「開放權重整體追平閉源」,是把一個點外推成一條線,正是這篇文章從頭到尾在防的那種讀法。

它足以說的是:在這條對齊真實任務的軸上,最強的開放權重已經進到和閉源前沿同一個量級,而你還額外拿到了可自架與 MIT 授權這兩件閉源 API 給不了的東西。換個角度看,開放與閉源的這道差距,重點或許根本不在那一兩分智慧分上,而在差距的「形狀」變了:當最強的開放權重在某條真實任務軸上已能與閉源並列,選型的決勝點就從「誰更聰明」挪到了「誰更適合我這套約束」——而後者那張表上,可自架、MIT、1M context、Ascend NPU 這些格子,全是閉源 API 結構性給不了的。值不值得,取決於你最在意的是榜單那一格,還是指數沒量的那五格。

How to choose:推理密集且需要自架或 MIT 授權時,GLM-5.2 是當前開放權重最強的候選;但綜合指數只量到「腦力」那一格,成本、延遲、context、量化後品質這四件選型真正會卡住你的事,得在你自己的硬體與工作量上實測,別讓那個 51 分替你做完決定。