本文 1 個互動圖表在手機上以重點摘要呈現，互動版請以桌面瀏覽器開啟。

Artificial Analysis 把開放權重的領頭羊換成了 Z.ai 的 GLM-5.2——但對一個正在評估自架模型的團隊來說，「登頂排行榜」這四個字解答的問題，比它看起來的要少得多。

GLM-5.2 登頂開放權重智慧指數

GLM-5.2 在 Artificial Analysis Intelligence Index 上拿到 51 分，成為這份指數上分數最高的開放權重模型。按 Artificial Analysis 的排名，它領先 MiniMax-M3（44）、DeepSeek V4 Pro max（44）與 Kimi K2.6（43）。對任何盯著「能不能自己架一套不輸閉源」的團隊，這是一個值得停下來看的時刻。但把這件事讀成「現在該換成 GLM-5.2」是一種常見的誤讀。一份綜合智慧指數回答的是「平均而言誰比較聰明」，而選型要回答的是「在我這套延遲預算、context 需求、授權限制與硬體條件下，誰最划算」——這兩個問題只有部分重疊。

這篇文章不打算替 GLM-5.2 抬轎。它要做的是把這份排名拆開：指數衡量了什麼、刻意不衡量什麼，以及「在開放權重裡登頂」這件事在實務選型上到底代表多少分量。先把競賽場拉開來看。

下面這張圖把 GLM-5.2 放回它所在的座標系。預設顯示的是 Intelligence Index 本身，你可以切換到 GDPval-AA v2（一個對齊真實工作任務的評分）以及每題成本（cost per task），看同一批模型在不同軸上的相對位置怎麼移動。重點不是哪根長條最高，而是當你換一個衡量標準，名次會不會跟著換。

switch metric to re-rank the same models · 3 metrics

資料：Artificial Analysis（2026-06-17）。Intelligence Index 與 GDPval-AA v2 越高越好；cost / task 越低越好，故該軸刻意反向，最便宜者長條最長。閉源前沿僅以 GPT-5.5（xhigh reasoning）在 GDPval-AA v2 上的 1514 作對照點，其餘軸 Artificial Analysis 未給出可直接並列的同口徑數字。

切到 cost / task 那一軸時排序變了，是因為這軸上 Artificial Analysis 只給了 GLM-5.2 自己的數字（約 0.46 美元一題），其餘對手沒有同口徑的公開值。這件事本身就是第一個教訓：榜單上一個漂亮的綜合分數，往往不附帶你選型時真正要算的那幾個數。下面四個 H2 各拆一條軸。

指數衡量的那一格：綜合智慧，而且偏推理

Artificial Analysis Intelligence Index 是一個把多項評測折成單一數字的綜合分。GLM-5.2 拿到 51，這個 51 不是某一道題的正確率，而是一籃子任務的加總。看 GLM-5.2 從 5.1 到 5.2 的子項變化，能讀出這個指數的重心壓在哪：CritPt 升 16 分到 21%、HLE 升 12 分到 40%、AA-LCR 升 9 分到 71%、tau3 banking 升 15 分到 27%、SciCode 升 7 分到 50%、TerminalBench v2.1 升 16 分到 78%、GPQA Diamond 升 3 分到 89%。這些子項裡，重度推理與長鏈條任務（HLE、CritPt、AA-LCR）的漲幅最大。

換句話說，這個 51 分主要是被「難推理題」拉上去的。對一個要把模型塞進客服分類、文件抽取、或結構化資料轉換的團隊來說，這些子項的提升未必對得上你的工作量——你的任務可能在 GLM-5.1 甚至更小的模型上就已經飽和，再多的推理深度只是多燒 token。Artificial Analysis 自己也記了一筆相關的代價：GLM-5.2 每道 Intelligence Index 任務用掉約 43k output token，而 GLM-5.1 是 26k。分數漲了，每題吐出的 token 也漲了六成多。

再往下看一層，能更清楚這個 51 分到底把哪些東西折進了同一個數字。Artificial Analysis 在 GLM-5.2 這篇裡列出的子項橫跨好幾種能力面：CritPt 與 SciCode 偏科學與程式推理、HLE 與 GPQA Diamond 偏學科知識的深水區、AA-LCR 偏長鏈條推理、tau3 banking 偏帶工具的 agent 任務、TerminalBench v2.1 偏終端環境裡的實作。把這麼異質的一籃子題折成單一一個 51，本質上是先替每一格挑了權重、再加總——而那組權重不是你的權重。一個指數使用者拿到的是加總後的結果，看不到原本的配重，也就無從判斷那 51 分裡有多少來自你根本不會碰到的能力面。這是所有綜合指數共有的結構：它用「可比一個數」換掉了「可解一筆帳」。

這就是讀綜合指數的第一個紀律：先確認指數的子項分布對得上你的工作量。一個被推理題拉高的綜合分，對推理密集的場景是強訊號，對 throughput 密集的場景幾乎是雜訊。GDPval-AA v2 這條軸值得單獨留意，因為它號稱對齊真實工作任務——GLM-5.2 在這軸上拿 1524，而 Artificial Analysis 描述它「in-line with proprietary models including GPT-5.5 (xhigh reasoning)」，後者是 1514。注意這是 Artificial Analysis 的對照措辭，是「並駕齊驅」這種比較級，不是「超越閉源前沿」的斷言；照搬成後者就是把來源的 hedge 偷偷升級。值得補一句：GDPval-AA v2 與 Intelligence Index 是兩條不同的軸，GLM-5.2 在前者拿 1524、在後者拿 51，這兩個數字不能互相換算，也不能因為一個高就推論另一個的位置——它們各自挑了不同的題、各自配了不同的權重。把兩條軸混為一談，是讀這類榜單時最容易犯的錯。

指數不衡量的那幾格：成本、延遲、context、授權

一份智慧指數的設計目的就是抹掉部署條件，只比「腦力」。這讓它好排名，也讓它在選型上有四個結構性的盲點。第一個是成本。Artificial Analysis 給了 GLM-5.2 的 API 報價——每百萬 token 輸入 1.4 美元、cache hit 0.26 美元、輸出 4.4 美元——以及每題約 0.46 美元的綜合成本。但這是「跑這份 benchmark」的成本，不是你那套工作量的成本。輸出單價是輸入的三倍多，而 GLM-5.2 每題吐 43k token：一個愛長篇推理的模型，在輸出密集的場景會把帳單推得比指數分數暗示的更高。

第二個是延遲與吞吐。指數不計時。但 43k output token 不只是錢，也是 wall-clock 時間——自回歸解碼是逐 token 串行的，43k 個 token 在固定的 tokens/s 下就是固定的牆上時間。一個互動式產品（補全、對話、agent 的每一步）對 time-to-first-token 與 tokens/s 的敏感度，遠高於對綜合智慧多兩分的敏感度。指數高的模型若把分數建立在更長的思考鏈上，等於在延遲帳上預支。

第三個是 context window。這格 Artificial Analysis 與 HuggingFace 的模型卡都有給：GLM-5.2 的 context 從 5.1 的 200K 升到 1M token，模型卡的說法是「Solid 1M-token context that stably sustains long-horizon work」。對要餵整個 codebase、長文件、或多輪 agent 軌跡的團隊，這個 1M 可能比那兩三分綜合智慧更有決定性——而它在綜合指數的單一數字裡完全看不出來。

第四個是授權與可自架性，這恰好是「開放權重」這個詞的全部分量所在。Artificial Analysis 記 GLM-5.2 的授權是 MIT，HuggingFace 模型卡進一步寫「no regional limits」；對一個正在評估自架的團隊，這一格的權重往往不是「加幾分」，而是「能不能進場」的開關。一個閉源 API 就算指數分數更高，只要它的條款不允許你要的部署形態、或它的地區限制把你擋在門外，那麼它在你的選型表上根本不該出現——可自架性是一個前置的硬篩，不是一個可被智慧分數補償的軟加權。綜合指數把這一格設成零，是因為它要的是跨模型可比；但你要的恰恰相反，是先用這一格把不可用的選項全部刪掉，再去比剩下那些的腦力。

把這四格放回一個自架決策裡，權重該怎麼擺其實有跡可循。粗略地說，授權與可自架性是門檻型的條件——過不了就直接出局，過了才有資格往下比；context 是任務型的條件——你的工作量若根本碰不到 200K，那 1M 這格對你就是零分，碰得到才瞬間變成決定性；成本與延遲則是運營型的條件，它們不是一次性的篩選，而是會按你每天的請求量持續累積的帳。Artificial Analysis 給的 0.46 美元一題與 43k output token，是「在它的硬體上跑它的 benchmark」的數字，搬到你的工作量上只能當量級參考，不能當預算。一個務實的次序是：先用門檻型條件刪掉不合格的，再用任務型條件決定 context 這格算不算數，最後才把成本與延遲放到你自己的硬體上實測——而不是反過來，被那個最醒目的 51 分牽著先入為主。下面這張表把指數衡量的格子（智慧）和它不衡量的格子（成本、延遲、context、授權、自架）並排，點 column header 可以重排，方便你照自己的約束把最在意的那欄拉到最上面。

click a column header to sort · 6 rows × 3 columns

選型維度 × 指數是否衡量 × GLM-5.2 的已知值（資料：Artificial Analysis 與 HuggingFace 模型卡，2026-06-17）。
選型維度	指數是否衡量	GLM-5.2 的已知值
綜合智慧	是（核心）	Intelligence Index 51，居開放權重之首
每題成本	否	約 0.46 美元一題；輸出每百萬 token 4.4 美元
延遲 / 吞吐	否	未公開 tokens/s；每題 43k output token
context window	否	1M token（5.1 為 200K）
授權	否	MIT，模型卡稱「no regional limits」
可自架性	否	744B 總參數 / 40B active；MIT 權重可下載

指數只把第一行做進了那個 51 分；下面五行——也就是選型真正會卡住你的那幾行——指數一格都沒量。744B 與 40B 的數字來自 Artificial Analysis，HuggingFace 模型卡另標 753B；兩者口徑不同，下一節展開。

登頂的代價：5.1 到 5.2，分數換來了什麼

開放權重榜上的領先很少是免費的。把 GLM-5.1 和 GLM-5.2 並排，會發現分數的提升和資源的消耗是一起漲的。下面這個對照——拖動分隔線把右側的 5.2 推開——把幾個成對的數字擺在一起：智慧分、每題 output token、context、AA-Omniscience Index。讀法不是「右邊更好」，而是「右邊更強的同時也更貴」。

drag the divider to push GLM-5.2 over GLM-5.1

GLM-5.1

每題 output token: 26k
context window: 200K
AA-Omniscience Index: 2
HLE: 28%

GLM-5.2

每題 output token: 43k
context window: 1M
AA-Omniscience Index: 4
HLE: 40%

HLE 由 5.1 推算（5.2 為 40%、Artificial Analysis 記為升 12 分，故 5.1 約 28%）。其餘為 Artificial Analysis 直接給出的值。更高的分數伴隨每題 token 多出六成多。

HLE 由 5.1 推算（5.2 為 40%、Artificial Analysis 記為升 12 分，故 5.1 約…

5.2 分數更高，代價是每題 token 由 26k 漲到 43k——更強也更貴。

這裡有一個需要誠實標記的地方：HLE 的 5.1 數字（約 28%）是從「5.2 為 40%、升了 12 分」回推的，合理的推測是 5.1 約 28%，但 Artificial Analysis 沒有直接列出 5.1 的絕對值。其餘成對數字——26k 對 43k、200K 對 1M、Omniscience 2 對 4——都是來源直接給出的。把這幾對放在一起看，結論很清楚：5.2 的進步是真的，但它換來進步的方式是吐更多 token、吃更大 context、跑更深推理，而這三件事在 production 上全都是錢和時間。

自架那一關：744B MoE 與 MIT 權重之間的距離

「開放權重」的承諾是你能把權重下載下來、自己跑。但從「拿到 MIT 授權的權重」到「在自己的機器上穩定服務」之間，隔著幾道很具體的關卡。先把規格擺清楚：Artificial Analysis 記 GLM-5.2 為 744B 總參數、40B active，與 GLM-5.1 同等；HuggingFace 模型卡則標 753B 參數，且沒有區分 total 與 active。744B 與 753B 的差異我不替它調和——這是兩個來源的不同口徑，選型時該以你實際要部署的那個 checkpoint 的 config 為準，而不是任一篇文章的整數。

重點在「40B active」這個 MoE 特性上。744B 是要載進記憶體的權重總量，40B 才是每個 token 實際走過的參數量。這決定了兩件不同的事：總參數量決定你需要多少 GPU 記憶體（或多大的 offload／量化方案）才放得下，active 參數量決定每 token 的計算量、也就是吞吐。模型卡還提到一個叫 IndexShare 的機制：「reuses the same indexer across every four sparse attention layers, reducing per-token FLOPs by 2.9× at a 1M context length」——這是針對 1M context 下注意力成本的優化，注意它的措辭是「reducing per-token FLOPs by 2.9×」，是 FLOPs 層級的宣稱，不等於端到端延遲也降 2.9 倍；照搬成後者是來源沒說的話。

至於「下載權重之後怎麼跑」，模型卡列出的部署面比規格更實際。下面這張卡片把自架這條路上的幾個關卡攤開：選哪個 serving 引擎、要不要量化、配套硬體。點任一張卡看它對選型的意義。

click any card to read what it means for selection · 4 cards

自架 GLM-5.2 的四道關卡

serving 引擎SGLang / vLLM

模型卡列出官方支援的推論後端
量化路線llama.cpp / Ollama

744B 放不下整卡時的縮小方案
硬體平台NVIDIA / Ascend NPU

模型卡點名的加速器平台
授權MIT

決定你能不能商用、能不能改

點任一道關卡，看它對選型的意義。

serving 引擎

模型卡列出 SGLang（v0.5.13.post1+）、vLLM（v0.23.0+）、Transformers、KTransformers 為支援後端。版本門檻很高表示這是新架構，你的 serving stack 多半要升級到尚新的版本才跑得動，別假設現有的 pin 能直接吃下這個 checkpoint。

量化路線

模型卡提到 llama.cpp、Ollama、LM Studio、Jan 上有量化版。744B 總參數要全精度放進記憶體成本極高，量化是讓單機或小叢集放得下的現實手段——代價是品質可能與榜單上那個 51 分不再對得上，榜單跑的是原始權重。

硬體平台

模型卡點名支援 Ascend NPU，這對需要繞開特定供應鏈的團隊是實質訊號。但 Artificial Analysis 與模型卡都沒給自架的 tokens/s，你得自己在目標硬體上量延遲與吞吐，這正是指數那個 51 分完全沒覆蓋的部分。

授權

MIT 是這次最乾淨的一格：商用、修改、再散布都允許，模型卡強調「no regional limits」。對被前沿閉源 API 的條款或地區限制卡住的團隊，這格可能比那 51 分更有決定性——而它在綜合指數裡完全不出現。

這四關拼起來說的是同一件事：榜單上的 51 分是「原始權重在 Artificial Analysis 的硬體上跑出來的腦力」，而你自架的版本，要先過 serving 引擎的版本門檻、可能還得量化（量化會動到品質）、在你自己的加速器上量出延遲——這一連串之後，你手上那套的實際表現，和榜單那個數字已經不是同一回事。MIT 授權給了你做這件事的權利，但沒給你省掉這些工。

怎麼選：把排名當篩子，不當判決

回到最初那個問題：「GLM-5.2 登頂開放權重」對你的選型代表什麼。它代表一件確定的事和一串需要你自己驗的事。確定的是：在 Artificial Analysis 這份偏推理的綜合指數上，目前開放權重裡 GLM-5.2 分數最高，且在 GDPval-AA v2 上與 GPT-5.5（xhigh reasoning）被描述為並駕齊驅。需要你自己驗的是：成本、延遲、context 夠不夠、量化後還剩多少、你的硬體跑得動嗎——這些指數一格都沒量。

一個能直接用的次序是這樣。先用綜合指數當粗篩：如果你的工作量確實是推理密集（複雜 agent、科學推理、長鏈條規劃），那麼一個被推理題拉高的 51 分是強訊號，GLM-5.2 該進你的候選名單。如果你的工作量是 throughput 密集（分類、抽取、轉換），先別被 51 分吸引，去看更小的開放權重模型在你的任務上是不是已經飽和——多出來的推理深度只會讓你每題多燒那 43k 裡的一大截。接著用四個被指數抹掉的維度做硬約束：context 需求若超過 200K，1M 這格立刻變成決定性優勢；授權若被閉源條款卡住，MIT 這格同樣決定性；延遲與每題成本則必須在你自己的硬體與工作量上實測，榜單的 0.46 美元一題不是你的數字。

至於和閉源前沿的差距，這份資料只給了一個對照點：GDPval-AA v2 上 1524 對 GPT-5.5 的 1514。一個點不足以說「開放權重已追平閉源」，那會是把單一數字過度外推。要明白這個對照點有多窄：它只落在一條軸（GDPval-AA v2）、一個閉源對手（GPT-5.5，且是 xhigh reasoning 這個特定檔位）、一個時間切片（2026-06-17）上，而且 Artificial Analysis 自己的措辭是「in-line」這種並列級，不是領先級。合理的推測是，在 Intelligence Index 那條軸上閉源前沿仍可能站得更前——但這份資料沒有給出可直接並列的同口徑閉源數字，所以這只能停在推測，不能寫成結論。把「在一條軸上與一個閉源檔位並駕齊驅」讀成「開放權重整體追平閉源」，是把一個點外推成一條線，正是這篇文章從頭到尾在防的那種讀法。

它足以說的是：在這條對齊真實任務的軸上，最強的開放權重已經進到和閉源前沿同一個量級，而你還額外拿到了可自架與 MIT 授權這兩件閉源 API 給不了的東西。換個角度看，開放與閉源的這道差距，重點或許根本不在那一兩分智慧分上，而在差距的「形狀」變了：當最強的開放權重在某條真實任務軸上已能與閉源並列，選型的決勝點就從「誰更聰明」挪到了「誰更適合我這套約束」——而後者那張表上，可自架、MIT、1M context、Ascend NPU 這些格子，全是閉源 API 結構性給不了的。值不值得，取決於你最在意的是榜單那一格，還是指數沒量的那五格。

How to choose：推理密集且需要自架或 MIT 授權時，GLM-5.2 是當前開放權重最強的候選；但綜合指數只量到「腦力」那一格，成本、延遲、context、量化後品質這四件選型真正會卡住你的事，得在你自己的硬體與工作量上實測，別讓那個 51 分替你做完決定。