vatt'ghern jaskier's ballads
本文 2 個互動圖表在手機上以重點摘要呈現,互動版請以桌面瀏覽器開啟。

這週的文章有一個隱藏的共同問題:當 AI 模型的能力不再是瓶頸,系統層要怎麼接住它——從 sandbox 的安全邊界、agentic harness 的 pass^k 衰減,到 generative recommender 的 GPU 利用率;模型越強,系統工程師就越難在幕後躲著。

第 22 週 —— 模型越強,瓶頸越系統

這週的主軸

月二十六日到三十一日,最清晰的一條線索是:AI 的能力邊界正在向系統層移動。模型本身已不再是所有問題的答案——真正卡住的地方,是外面那層 harness、sandbox、scheduler、encoder。這週的三篇文章從三個不同的角度把這件事講得最直接。

「從 model scaling 到 system scaling」用 pass^k 的指數衰減把瓶頸指名道姓:一個 long-horizon 任務有 k 個步驟,每步驟的 pass rate 是 p,整體成功率是 p^k——模型再強,只要 harness 的治理層不到位,複合衰減就會把能力抵消掉。這篇文章的核心命題是:agentic AI 的下一個瓶頸不在模型,在 harness 的 context engineering 與 checkpoint 策略。

Anthropic 把 Claude 的三層 sandbox 演化攤開是另一個角度:claude.ai 用 gVisor 的 syscall 攔截、Claude Code 用 Seatbelt / bubblewrap、Cowork 用 VM isolation——三條部署線各有不同的威脅模型,紅隊也各自找到真實漏洞。這不是說教,而是一份把「AI agent 要怎麼被關住」說清楚的工程紀錄。

同一個方向,LinkedIn 的 generative recommender 訓練吞吐重構站在生產側:1.1B 參數的 DLRM 升代之後,padding ratio 衝到 75–87%,GPU SM 反而閒著——問題不在模型,在 dataloader 的 padding 策略、batch packing、optimizer 的 fused 程度。沿四條候選假設追下去,最後靠十一項優化把 GPU hour 砍 65%、Feed A/B +2.10% session time。這是「模型訓練的系統工程化」的一個真實案例。

個別亮點

bijou64 varint是本週工程密度最高的 systems 文章。Ink & Switch 設計這個 u64 可變長度編碼,同時拿下三件通常要取捨的事:字典序保序(CRDT 排序不需要 decode)、首 byte length prefix(decode 不需要掃後面的 byte)、branchless decode(熱路徑無分支預測壓力)。對比 LEB128 在 x86 Zen 5 上快 2–10×,wire size 差距只有 2–3%。

pye 把 Wadler-Leijen pretty printer 重新拆過,把 worst-case O(n²) 的 group decision 改成嚴格 O(n) 的 measure + render 兩階段。這是一個罕見的例子:問題從 1998 年的 Haskell 論文開始,Rust 實作時重新逼出了一個更清晰的 IR 設計。做 compiler 或 formatter 的人值得完整讀一遍。

DoomBench的研究姿態值得記住:把 DOOM 寫成 SQL(DOOMQL),拿遊戲 loop 當 benchmark——因為遊戲需要同時寫狀態、讀歷史、做 join,剛好把 OLTP / OLAP 的邊界逼出來。CedarDB 在這個 benchmark 上打平 DuckDB 的分析效能同時保住 PostgreSQL 的 OLTP 吞吐,讓「HTAP 是否真的可能不取捨」這個問題第一次有了有趣的具體數字。

diff rendering 比想像難:Pierre 把 code review UI 拆成四個 cross-cutting 子問題——hunk 切分、token alignment、virtual scroll、word-wrap——並對比 GitHub、Linear、Phabricator、Gerrit 各自怎麼選。這種「把一個看似簡單 UI 的設計決定空間攤平」的文章,工程價值在框架本身,不在結論。

BEAM atom 用完,VM 就掛是本週最安靜但最有殺傷力的一篇:BEAM 的 atom 表全域不 GC、有上限(預設一百萬);從不可信輸入 String.to_atom/1 就是乾淨的 DoS,佔 EEF 已知 CVE 的三成五。Elixir 社群知道這件事,但新人通常不知道。

本週動向

這週 domain 分布的最明顯變化:backend 從 14.3% 升到 19.2%(+4.9 pp)。backend 這週的貢獻集中在三個不同角度的執行引擎討論——DBOS 主張 Postgres 就是 orchestrator、DoomBench 用 DOOM 逼出 HTAP 邊界、CVE-2026-48710 把 OSS 維護者的 30 天揭露窗口攤開。infra 從 21.4% 退到 17.9%(−3.5 pp),主因是上週有 ECH 等多篇協定層文章集中;這週只有 Cloudflare Town Lake 一篇扛 infra。

新出現的標籤裡,durable-execution 一週內出現三次——DBOS 的「Postgres 就夠了」、Cloudflare SQLite workflow、roundup 裡的 obeli.sk 測試框架——這個 tag 上週完全不存在。另一個新到的群:security 三次(BEAM atom DoS、CVE-2026-48710、Claude sandbox 紅隊)、generative-recommender 兩次(LinkedIn、SilverTorch)。faded 裡有意義的是 cpp(上週三篇,本週零篇)——低延遲 C++ 的討論熱度在本週讓位給了 Rust 與 BEAM。

domain 分布變化:上週(05/19–25)→ 本週(05/26–31) other −5.5 pp ↓ 上週 5.5% 本週 0.0% backend +4.9 pp ↑ 上週 14.3% 本週 19.2% infra −3.5 pp ↓ 上週 21.4% 本週 17.9% ai +2.8 pp 上週 20.3% 本週 23.1% web +2.0 pp 上週 15.9% 本週 17.9% systems −0.7 pp 上週 22.5% 本週 21.8%
每個 domain 一區,上週 / 本週各自一條 bar。other = storage / industry 類話題的合稱。按 |delta_pp| 排序。

每個 domain 一區,上週 / 本週各自一條 bar

本週 domain 分布:backend 升 4.9pp 至 19.2%,infra 降 3.5pp 至 17.9%,other 從 5.5% 清零。

一週的形狀

六天、六篇 roundup、十八篇 deep story。Archetype 分布:technical-deep-dive 6 篇(bijou64、pye pretty printer、Cloudflare Town Lake、SilverTorch、Itanium vtable、NGINX ECH)、investigation 3 篇(agentic harness、LinkedIn recommender、CAPTCHA vs agent)、comparison 3 篇(DBOS vs Temporal、CSS vs JS、Go vs Rust)、freeform 2 篇(diff rendering、DoomBench)、narrative 2 篇(Claude sandbox、CVE-2026-48710)、explainer 2 篇(BEAM atom、Shannon scaling)。technical-deep-dive 的強勢,反映這週「把一件事的機制講清楚」的整體敘事傾向。

18 篇 deep story × 6 天(05/26–31),每天三篇

六天、十八篇 deep story。archetype 在前、domain 在尾。

六天、十八篇 deep story

本週 18 篇 deep story 按日期與 archetype 羅列,technical-deep-dive 6 篇為最多類型。

下一週可能展開的線索

durable-execution 這週浮出水面不是偶然——DBOS、obeli.sk、Cloudflare 三條不同的線都在問「怎麼讓工作流不因死機而失憶」,但它們的答案相差甚遠(Postgres as WAL、SQLite as journal、cloud blob store as checkpoint)。下週值得觀察的是社群對 DBOS「Postgres 就夠了」的回應——Temporal 陣營與 Step Functions 用戶的反駁通常不會超過一週才出現。

另一條值得跟的線:Rust 1.96.0 已於五月二十八日 stable 釋出,這週只有 roundup 裡的一則提到。生態圈對新 feature 的深度分析通常在 stable 之後兩到三週才集中出現——可以預期六月初會有幾篇拆解 LazyLock 穩定化實際影響的文章。

這週的落點——系統層是一個奇特的地方:它存在的意義是讓人忘記它的存在。但當 AI 模型的進步開始倒逼 harness、sandbox、scheduler、encoder,工程師就再也躲不回去了。六天、十八篇——這週的文章都在問:在模型之下,還有多少層沒被正確設計過?