2026.06.21 —— 今日 10 則

TODAY'S THREAD 今天的線索是「把抽象底下的帳算清楚」——一張餐巾紙估出 LLM 推論每位使用者要攤多少錢、把 NixOS 映像從 458MB 砍到 183MB、用型別讓 Rust 的 SIMD 不再到處 unsafe；旁邊還有 npm 預設關掉 postinstall、Cloudflare 給 AI agent 發臨時帳號這些把邊界收緊的動作。

0 / 10 read

#02

用一張餐巾紙算清 LLM 推論的帳

一篇用 back-of-the-envelope 數學估算 LLM 推論成本的長文：從矩陣乘法、attention 一路推到一張 B200 該服務多少並發使用者。作者算出理論上約 331 人能讓算力和記憶體頻寬打平，但 KV-cache 的容量把實際拉到 40 到 60 人，換算成自有硬體大約每位使用者攤 133 美元。想搞懂推論帳單怎麼來的，這是難得從第一原理講起的一課。

read source → deep read inference

#08

Microcrad——把 micrograd 用 C 重寫一遍

Microcrad 把那個極簡的教學用自動微分引擎 micrograd 用 C 重寫了一遍。原版是 Python，改寫成 C 之後可以更貼近地看清反向傳播、計算圖與梯度在記憶體裡到底長什麼樣。對想從零理解 autodiff、又不想被高階框架擋住視線的人，這是一個小而透明的讀本。

read source → autodiff

#03

讓 Rust 的 SIMD 不再到處 unsafe

Rust 寫 SIMD 一直得包一堆 unsafe 來呼叫 CPU intrinsic，既難維護又容易出錯。這篇示範 Rust 1.87 之後怎麼用型別系統把「這顆 CPU 支援 AVX2」變成一個無法偽造的證明 token，再配合泛型，把幾百處分散的 unsafe 收斂成單一一塊可稽核的程式碼。作者也把成果做成了 fearless_simd 這個 crate。

read source → deep read rust

#04

把 NixOS 映像從 458MB 砍到 183MB

一位開發者把 NixOS 的 live 映像從 458MB 一路砍到 183MB，少了六成。手法很硬核——關掉 Nix 自己、拿掉文件，用 nix why-depends 追出是誰把 144MB 的核心模組和 56MB 的 Perl 依賴拖進來，再換上 system.etc.overlay、services.userborn 這些實驗性選項。作者最後也坦白：這樣犧牲了太多 production 該有的東西，比較像把好奇心玩到底的實驗。

read source → deep read nixos

#09

Bun 想替 JavaScriptCore 加共享記憶體執行緒

Bun 在 JavaScriptCore 的 fork 上開了一個 PR，想替這顆引擎加上共享記憶體的執行緒。JavaScript 長年是單執行緒的世界，要在 VM 層引入真正共享記憶體的多執行緒，牽動的是物件模型、GC 與一連串既有假設的取捨。這串討論本身就是一份看 runtime 設計權衡的好教材。

read source → javascript

#01

Cloudflare 給 AI agent 發臨時帳號

Cloudflare 推出「臨時帳號」，專門發給 AI agent 用：一組有範圍、會過期的憑證，讓自主 agent 去操作資源時不必拿長期金鑰。隨著 agent 開始自己呼叫雲端 API，「怎麼給機器恰到好處又收得回來的權限」成了現實問題，這是一個把憑證生命週期收緊的答案。對在接 agent 與雲端服務的人值得一看。

read source → agents

#06

Bootimus——自帶電池的網路開機伺服器

Bootimus 是一個自帶電池的網路開機伺服器，把 PXE 與 HTTP boot 兜成一包，省掉自己拼 DHCP、TFTP、HTTP 那串前置設定。對要大量佈建裸機、或在家裡實驗室裝系統的人，它把網路開機這件麻煩事收斂成一個現成元件。

read source → provisioning

#10

我把一整個網站塞進 favicon

有人把一整個網站塞進了 favicon。作法是把 HTML 的 UTF-8 位元組逐一映到像素的 RGB 通道——208 位元組的內容只要一張 9×9 的 PNG，瀏覽器載入後用 canvas 把像素讀回來、再解碼成網頁。作者自己也說這沒什麼實用性，但它把「瀏覽器到底能從哪裡讀資料」這件事玩得很漂亮。

read source → web

#05

PostgresBench——比一比代管 Postgres 的吞吐

ClickHouse 放出 PostgresBench，用 pgbench 的 TPC-B workload 去比五家代管 Postgres 服務，兩種機型、256 個並發連線各跑十分鐘，報出 throughput 與 P95、P99 延遲。要留意這是廠商自家的基準，結論偏向自家佔優；但它把方法、規模與百分位數都攤開，至少給了一個可重現、能照著自己重跑的起點。

read source → postgres

#07

Observability 入門——logs、metrics、traces 各回答什麼

ByteByteGo 寫了一篇 observability 的入門，把 logs、metrics、traces 三件事和它們周邊的概念講清楚。重點不在工具，而在釐清三者各自回答什麼問題、什麼時候該看哪一個。對剛開始扛 on-call、或想把可觀測性講給同事聽的人，這是一份好用的地圖。

read source → observability

today's deep reads

deep · 01 用一張餐巾紙算清 LLM 推論的帳——從矩陣乘法到每位使用者 133 美元 deep · 02 讓 Rust 的 SIMD 不再到處 unsafe——用型別把 CPU 特性變成證明 deep · 03 把 NixOS 映像從 458MB 砍到 183MB——一場跟 closure 的拔河