2026.06.02 —— 今日 10 則
TODAY'S THREAD 三篇 deep 從三個角度看「貼地細節再拆一次」:8-bit pixel 該除 255 還是 256、Cloudflare core server 開機從幾小時拉到幾分鐘、把 RNA folding 的 Nussinov DP 偷進 GHC 的 ApplicativeDo 排程。其餘七則分兩條線:一是 AI agent 自主跑代碼帶來的隔離與安全代價(Docker Sandboxes 把 microVM 重新定義邊界、Stanford CS336 把 LLM 從零教一次、LFM2.5-8B-A1B 把 Liquid Network 推到 MoE);二是供應鏈邊角持續被打(Red Hat npm 套件被植入惡意程式、Instagram 帳號被一個荒謬的 takeover 缺陷打穿、十年的 Xeon 仍跑得動現代 Gemma)。底層、模型、邊界——三個方向同一個問題:哪些假設仍站得住、哪些已經悄悄翻面。
Stanford CS336:從零訓一個 language model 的完整公開課
Stanford 把 CS336「Language Modeling from Scratch」整套課程資料公開:從 tokenizer、attention 變體、訓練 loop、scaling laws、post-training(SFT + RLHF),一路講到 inference 與 serving。對被「先看哪一篇 paper」卡住的工程師,這是一張完整的 prerequisite 圖,把零散的部落格內容串成有順序的學習路線。對自家也在訓小模型的隊伍,課堂作業裡的 distributed training 與 RLHF 練習可以直接拿來壓力測自己的 stack。
Liquid AI 釋出 LFM2.5-8B-A1B:把 liquid network 推到 MoE,8B 參數只用 1B active
Liquid AI 上架 LFM2.5-8B-A1B:八十億參數的 mixture-of-experts,每個 token 只啟用約 10 億——延續他們以 continuous-time recurrent 為基底、長 context 比 transformer 省記憶體的路線,但這次把 inference 計算量壓得更狠。對在邊緣、CPU、或 mid-range GPU 上跑 LLM 的人,這是一個不需要 H100 也能跑得動的選項;架構上的設計選擇也值得對比 DeepSeek-MoE、Mixtral 之類同樣走稀疏激活的對手。
十年的 Xeon 還夠用——把 Gemma 4 跑在 2016 年的伺服器上
point.free 把 Google 的 Gemma 4 模型搬到一台 2016 年的 Xeon 工作機上跑,記下 token/s、記憶體與功耗。結論之一:對 7B 以下的指令模型,dedicated GPU 不再是門票,二手伺服器級 CPU 配合 llama.cpp 之類的執行框架已經能撐住輕量推論工作。對內網要部署 LLM 但預算被 GPU 採購卡死的隊伍,這條路徑值得拿在手上算 TCO——不是替換 GPU,是讓「先試先跑」的入門成本變成幾乎為零。
把 RNA folding 偷進 GHC——用 Nussinov 1978 改寫 ApplicativeDo 的排程
Ian Duncan 把 GHC 一個被 -foptimal-applicative-do flag 隱藏多年的優化重新打開:do-block 的排程問題剛好對應到 RNA 二級結構摺疊,於是直接套 Nussinov 1978 的區間 DP,再加上 longest-chain bound 剪枝。1,000-statement worst-case 從 55 秒降到秒級;200-statement adversarial 鏈的 cut-check 數從 1,333,300 降到 19,900(67×)。對任何在管 build performance 的隊伍,這條 cross-pollination 提醒:很多 compile-time 問題不在 compiler 自己的文獻裡。
Zstandard 有了原生 Rust 實作——壓縮演算法跨語言重寫的新一輪
Trifecta Tech 公開 Zstandard 的原生 Rust port:不再透過 zstd-sys 綁定 C 程式碼,整個 entropy coder、frame format、dictionary 機制都用 Rust 重寫。對任何在 Rust 生態鏈裡掙扎於 unsafe FFI 與 build-time 的人,這代表壓縮這層終於可以拿掉 C 依賴;同時也再次驗證了「把成熟 C library 重寫成記憶體安全版本」這條路徑可行——只是要忍受 multi-year 的工程投入。
Cloudflare 把 core server 開機從幾小時縮到幾分鐘——拆掉 UEFI、iPXE 與 firmware 的隱形 timeout
Cloudflare 在 firmware update 階段發現 core unit 整套 reboot 動輒幾小時,沿著 UEFI 資料結構 timeout、iPXE 自動化腳本、serial console 等待逐層挖,把每一步壓到該有的時間。對於要管十萬台機器、每季都得 firmware update 的 fleet 來說,每台節省的不是分鐘,是維護視窗本身。這條 debugging 路徑也是一份『開機鏈到底由誰負責』的活教材。
Docker 把 AI agent 重新放回隔離問題的核心——untrusted autonomous workload 的 microVM 解法
Docker 整理了「AI coding agent 自主跑代碼」這個工作負載對 sandbox 的新要求:原先 container 隔離設計給的是 trusted multi-tenant 假設,但 agent 會主動拉檔案、嘗試提權、運行不受控的 binary。Docker Sandboxes 改用 microVM 把隔離邊界推回 hypervisor 層,並把 image 啟動成本降到接近 container。對任何在生產環境裡讓 agent 自由跑 shell 的隊伍,這份文件值得讀完一次——它把「為什麼 namespace + seccomp 不夠了」講得很白。
8-bit pixel 該除 255 還是 256?——把一個被當「顯而易見」的 normalize 攤開看
30fps.net 重新追問一個被當成常識的問題:把 8-bit channel 換成 0–1 浮點時,到底要除 255(讓 255 對應 1.0)還是除 256(讓 ALU 一個 shift 就完事)?兩個選擇分別對應「色彩正確」與「指令對齊」,差距小到肉眼看不出,但在 GPU LUT、video codec、SIMD blending 裡持續積累偏差。這篇把雙方放在同一張座標講清楚,給的不是答案,是「在你的 pipeline 裡,哪個誤差比較貴」的判斷。
Red Hat Cloud Services 偵測到惡意 npm 套件——supply chain 又一次靠人腳本撐住
Red Hat Insights 在自家 javascript-clients repo 公開報告:在 transitive dependency 樹裡攔到惡意 npm 套件,內含 exfiltration 與 backdoor 行為。事件本身規模不大,但意味著 enterprise 等級的 CI pipeline 仍是被『發了 PR、跑 lint、跑 test、merge』就放行——沒有額外的 supply-chain 信號做 gate。對任何依賴大量 npm 套件的 backend,這份 issue 是個提醒:dependabot-style 通知不等於 supply-chain 防線。
Instagram 的「最荒謬 takeover bug」——一個被當成 feature 的權限混淆
0xsid 紀錄了一個被他形容為「我見過最 goofy」的 Instagram 帳號接管缺陷:merge-account 流程裡某個 OAuth-style 通訊被當成已驗證身份,結果攻擊者只要把對手的 session ID 丟進一個 GraphQL mutation 就能完成接管。這類缺陷不需要拿 0-day、不需要熟記 cryptographic 細節——它示範了「邊角 endpoint 沒被當成安全表面」這個老問題還在持續產生事件。對 product engineer,這條 timeline 值得拿來檢視自家的「使用者 merge」「裝置 swap」「帳號鏈接」三條 flow 是不是被遺漏。
today's deep reads
web8-bit pixel 該除 255 還是 256——把 ALU、表格、美觀放上同一張座標
把一個被當「顯而易見」的選擇展開:endpoint identity vs. shift-aligned ALU,在 GPU LUT、video codec、SIMD blend 裡是真的會差。
infra把 server 開機從幾小時拉到幾分鐘——Cloudflare 拆 UEFI、iPXE、firmware 三層遲延
Fleet-level 痛點被一條 debugging trail 攤開:哪些 timeout 來自 spec 預設、哪些是工程習慣帶來的浪費、哪些可以平行化。
systems把 RNA folding 偷進 GHC——ApplicativeDo 排程的 Nussinov DP 重寫
Cross-pollination 的具體案例:把 RNA 二級結構摺疊的區間動態規劃套到 do-block 排程,1,000-statement worst-case 從 55 秒降到秒級。