本文 2 個互動圖表在手機上以重點摘要呈現，互動版請以桌面瀏覽器開啟。

這週的文章有一個隱藏的共同問題：當 AI 模型的能力不再是瓶頸，系統層要怎麼接住它——從 sandbox 的安全邊界、agentic harness 的 pass^k 衰減，到 generative recommender 的 GPU 利用率；模型越強，系統工程師就越難在幕後躲著。

第 22 週 —— 模型越強，瓶頸越系統

這週的主軸

五月二十六日到三十一日，最清晰的一條線索是：AI 的能力邊界正在向系統層移動。模型本身已不再是所有問題的答案——真正卡住的地方，是外面那層 harness、sandbox、scheduler、encoder。這週的三篇文章從三個不同的角度把這件事講得最直接。

「從 model scaling 到 system scaling」用 pass^k 的指數衰減把瓶頸指名道姓：一個 long-horizon 任務有 k 個步驟，每步驟的 pass rate 是 p，整體成功率是 p^k——模型再強，只要 harness 的治理層不到位，複合衰減就會把能力抵消掉。這篇文章的核心命題是：agentic AI 的下一個瓶頸不在模型，在 harness 的 context engineering 與 checkpoint 策略。

Anthropic 把 Claude 的三層 sandbox 演化攤開是另一個角度：claude.ai 用 gVisor 的 syscall 攔截、Claude Code 用 Seatbelt / bubblewrap、Cowork 用 VM isolation——三條部署線各有不同的威脅模型，紅隊也各自找到真實漏洞。這不是說教，而是一份把「AI agent 要怎麼被關住」說清楚的工程紀錄。

同一個方向，LinkedIn 的 generative recommender 訓練吞吐重構站在生產側：1.1B 參數的 DLRM 升代之後，padding ratio 衝到 75–87%，GPU SM 反而閒著——問題不在模型，在 dataloader 的 padding 策略、batch packing、optimizer 的 fused 程度。沿四條候選假設追下去，最後靠十一項優化把 GPU hour 砍 65%、Feed A/B +2.10% session time。這是「模型訓練的系統工程化」的一個真實案例。

個別亮點

bijou64 varint是本週工程密度最高的 systems 文章。Ink & Switch 設計這個 u64 可變長度編碼，同時拿下三件通常要取捨的事：字典序保序（CRDT 排序不需要 decode）、首 byte length prefix（decode 不需要掃後面的 byte）、branchless decode（熱路徑無分支預測壓力）。對比 LEB128 在 x86 Zen 5 上快 2–10×，wire size 差距只有 2–3%。

pye 把 Wadler-Leijen pretty printer 重新拆過，把 worst-case O(n²) 的 group decision 改成嚴格 O(n) 的 measure + render 兩階段。這是一個罕見的例子：問題從 1998 年的 Haskell 論文開始，Rust 實作時重新逼出了一個更清晰的 IR 設計。做 compiler 或 formatter 的人值得完整讀一遍。

DoomBench的研究姿態值得記住：把 DOOM 寫成 SQL（DOOMQL），拿遊戲 loop 當 benchmark——因為遊戲需要同時寫狀態、讀歷史、做 join，剛好把 OLTP / OLAP 的邊界逼出來。CedarDB 在這個 benchmark 上打平 DuckDB 的分析效能同時保住 PostgreSQL 的 OLTP 吞吐，讓「HTAP 是否真的可能不取捨」這個問題第一次有了有趣的具體數字。

diff rendering 比想像難：Pierre 把 code review UI 拆成四個 cross-cutting 子問題——hunk 切分、token alignment、virtual scroll、word-wrap——並對比 GitHub、Linear、Phabricator、Gerrit 各自怎麼選。這種「把一個看似簡單 UI 的設計決定空間攤平」的文章，工程價值在框架本身，不在結論。

BEAM atom 用完，VM 就掛是本週最安靜但最有殺傷力的一篇：BEAM 的 atom 表全域不 GC、有上限（預設一百萬）；從不可信輸入 String.to_atom/1 就是乾淨的 DoS，佔 EEF 已知 CVE 的三成五。Elixir 社群知道這件事，但新人通常不知道。

本週動向

這週 domain 分布的最明顯變化：backend 從 14.3% 升到 19.2%（+4.9 pp）。backend 這週的貢獻集中在三個不同角度的執行引擎討論——DBOS 主張 Postgres 就是 orchestrator、DoomBench 用 DOOM 逼出 HTAP 邊界、CVE-2026-48710 把 OSS 維護者的 30 天揭露窗口攤開。infra 從 21.4% 退到 17.9%（−3.5 pp），主因是上週有 ECH 等多篇協定層文章集中；這週只有 Cloudflare Town Lake 一篇扛 infra。

新出現的標籤裡，durable-execution 一週內出現三次——DBOS 的「Postgres 就夠了」、Cloudflare SQLite workflow、roundup 裡的 obeli.sk 測試框架——這個 tag 上週完全不存在。另一個新到的群：security 三次（BEAM atom DoS、CVE-2026-48710、Claude sandbox 紅隊）、generative-recommender 兩次（LinkedIn、SilverTorch）。faded 裡有意義的是 cpp（上週三篇，本週零篇）——低延遲 C++ 的討論熱度在本週讓位給了 Rust 與 BEAM。

每個 domain 一區，上週 / 本週各自一條 bar。other = storage / industry 類話題的合稱。按 |delta_pp| 排序。

每個 domain 一區，上週 / 本週各自一條 bar

本週 domain 分布：backend 升 4.9pp 至 19.2%，infra 降 3.5pp 至 17.9%，other 從 5.5% 清零。

一週的形狀

六天、六篇 roundup、十八篇 deep story。Archetype 分布：technical-deep-dive 6 篇（bijou64、pye pretty printer、Cloudflare Town Lake、SilverTorch、Itanium vtable、NGINX ECH）、investigation 3 篇（agentic harness、LinkedIn recommender、CAPTCHA vs agent）、comparison 3 篇（DBOS vs Temporal、CSS vs JS、Go vs Rust）、freeform 2 篇（diff rendering、DoomBench）、narrative 2 篇（Claude sandbox、CVE-2026-48710）、explainer 2 篇（BEAM atom、Shannon scaling）。technical-deep-dive 的強勢，反映這週「把一件事的機制講清楚」的整體敘事傾向。

18 篇 deep story × 6 天（05/26–31），每天三篇

05/26

comparison 從 Go 遷移到 Rust——拿 GC 暫停與資料競爭換編譯期保證systems
explainer 把 LLM 訓練當成有雜訊的通道——Shannon Scaling Law 怎麼解釋過訓練與量化退化ai
technical Encrypted Client Hello 進 NGINX——把最後一截明文 SNI 藏進加密握手infra

05/27

investigation 從 model scaling 到 system scaling——agentic AI 的瓶頸搬到 harnessai
technical Itanium C++ ABI 的 vtable——virtual dispatch 真正的代價systems
freeform DoomBench——把 DOOM 塞進 SQL，逼出資料庫的真實取捨backend

05/28

technical Index as Model——Meta 把推薦檢索棧縮進一個 PyTorch forward passai
explainer Atom 用完，VM 就掛——拆解 BEAM 那張全域 atom 表systems
comparison CSS 還是 JS 做動畫——勝負在主執行緒之爭web

05/29

comparison Postgres 就夠了？——把 DBOS 的「資料庫即 orchestrator」放在 Temporal 旁邊量一量backend
technical Cloudflare 怎麼蓋 Town Lake——R2 + Iceberg + Trino + 一個會寫 JS 的 Claudeinfra
narrative 該怎麼裝住 Claude——claude.ai、Claude Code、Cowork 三種 sandbox 的演化ai

05/30

05/31

investigation Faster than Light——LinkedIn 怎麼把 generative recommender 的訓練吞吐拉上來ai
technical pye 把 Wadler-Leijen pretty printer 重新拆過——document IR + 攤分的 group 決策systems
narrative CVE-2026-48710 的揭露時間軸——Python 維護者怎麼在 30 天內處理一張責任券backend

六天、十八篇 deep story。archetype 在前、domain 在尾。

六天、十八篇 deep story

本週 18 篇 deep story 按日期與 archetype 羅列，technical-deep-dive 6 篇為最多類型。

下一週可能展開的線索

durable-execution 這週浮出水面不是偶然——DBOS、obeli.sk、Cloudflare 三條不同的線都在問「怎麼讓工作流不因死機而失憶」，但它們的答案相差甚遠（Postgres as WAL、SQLite as journal、cloud blob store as checkpoint）。下週值得觀察的是社群對 DBOS「Postgres 就夠了」的回應——Temporal 陣營與 Step Functions 用戶的反駁通常不會超過一週才出現。

另一條值得跟的線：Rust 1.96.0 已於五月二十八日 stable 釋出，這週只有 roundup 裡的一則提到。生態圈對新 feature 的深度分析通常在 stable 之後兩到三週才集中出現——可以預期六月初會有幾篇拆解 LazyLock 穩定化實際影響的文章。

這週的落點——系統層是一個奇特的地方：它存在的意義是讓人忘記它的存在。但當 AI 模型的進步開始倒逼 harness、sandbox、scheduler、encoder，工程師就再也躲不回去了。六天、十八篇——這週的文章都在問：在模型之下，還有多少層沒被正確設計過？