2026.06.02 —— 今日 10 則

TODAY'S THREAD 三篇 deep 從三個角度看「貼地細節再拆一次」：8-bit pixel 該除 255 還是 256、Cloudflare core server 開機從幾小時拉到幾分鐘、把 RNA folding 的 Nussinov DP 偷進 GHC 的 ApplicativeDo 排程。其餘七則分兩條線：一是 AI agent 自主跑代碼帶來的隔離與安全代價（Docker Sandboxes 把 microVM 重新定義邊界、Stanford CS336 把 LLM 從零教一次、LFM2.5-8B-A1B 把 Liquid Network 推到 MoE）；二是供應鏈邊角持續被打（Red Hat npm 套件被植入惡意程式、Instagram 帳號被一個荒謬的 takeover 缺陷打穿、十年的 Xeon 仍跑得動現代 Gemma）。底層、模型、邊界——三個方向同一個問題：哪些假設仍站得住、哪些已經悄悄翻面。

0 / 10 read

#03

Stanford CS336：從零訓一個 language model 的完整公開課

Stanford 把 CS336「Language Modeling from Scratch」整套課程資料公開：從 tokenizer、attention 變體、訓練 loop、scaling laws、post-training（SFT + RLHF），一路講到 inference 與 serving。對被「先看哪一篇 paper」卡住的工程師，這是一張完整的 prerequisite 圖，把零散的部落格內容串成有順序的學習路線。對自家也在訓小模型的隊伍，課堂作業裡的 distributed training 與 RLHF 練習可以直接拿來壓力測自己的 stack。

read source → llm-training

#07

Liquid AI 釋出 LFM2.5-8B-A1B：把 liquid network 推到 MoE，8B 參數只用 1B active

Liquid AI 上架 LFM2.5-8B-A1B：八十億參數的 mixture-of-experts，每個 token 只啟用約 10 億——延續他們以 continuous-time recurrent 為基底、長 context 比 transformer 省記憶體的路線，但這次把 inference 計算量壓得更狠。對在邊緣、CPU、或 mid-range GPU 上跑 LLM 的人，這是一個不需要 H100 也能跑得動的選項；架構上的設計選擇也值得對比 DeepSeek-MoE、Mixtral 之類同樣走稀疏激活的對手。

read source → moe

#10

十年的 Xeon 還夠用——把 Gemma 4 跑在 2016 年的伺服器上

point.free 把 Google 的 Gemma 4 模型搬到一台 2016 年的 Xeon 工作機上跑，記下 token/s、記憶體與功耗。結論之一：對 7B 以下的指令模型，dedicated GPU 不再是門票，二手伺服器級 CPU 配合 llama.cpp 之類的執行框架已經能撐住輕量推論工作。對內網要部署 LLM 但預算被 GPU 採購卡死的隊伍，這條路徑值得拿在手上算 TCO——不是替換 GPU，是讓「先試先跑」的入門成本變成幾乎為零。

read source → cpu-inference

#04

把 RNA folding 偷進 GHC——用 Nussinov 1978 改寫 ApplicativeDo 的排程

Ian Duncan 把 GHC 一個被 -foptimal-applicative-do flag 隱藏多年的優化重新打開：do-block 的排程問題剛好對應到 RNA 二級結構摺疊，於是直接套 Nussinov 1978 的區間 DP，再加上 longest-chain bound 剪枝。1,000-statement worst-case 從 55 秒降到秒級；200-statement adversarial 鏈的 cut-check 數從 1,333,300 降到 19,900（67×）。對任何在管 build performance 的隊伍，這條 cross-pollination 提醒：很多 compile-time 問題不在 compiler 自己的文獻裡。

read source → deep compilers

#05

Zstandard 有了原生 Rust 實作——壓縮演算法跨語言重寫的新一輪

Trifecta Tech 公開 Zstandard 的原生 Rust port：不再透過 zstd-sys 綁定 C 程式碼，整個 entropy coder、frame format、dictionary 機制都用 Rust 重寫。對任何在 Rust 生態鏈裡掙扎於 unsafe FFI 與 build-time 的人，這代表壓縮這層終於可以拿掉 C 依賴；同時也再次驗證了「把成熟 C library 重寫成記憶體安全版本」這條路徑可行——只是要忍受 multi-year 的工程投入。

read source → rust

#02

Cloudflare 把 core server 開機從幾小時縮到幾分鐘——拆掉 UEFI、iPXE 與 firmware 的隱形 timeout

Cloudflare 在 firmware update 階段發現 core unit 整套 reboot 動輒幾小時，沿著 UEFI 資料結構 timeout、iPXE 自動化腳本、serial console 等待逐層挖，把每一步壓到該有的時間。對於要管十萬台機器、每季都得 firmware update 的 fleet 來說，每台節省的不是分鐘，是維護視窗本身。這條 debugging 路徑也是一份『開機鏈到底由誰負責』的活教材。

read source → deep boot-time

#06

Docker 把 AI agent 重新放回隔離問題的核心——untrusted autonomous workload 的 microVM 解法

Docker 整理了「AI coding agent 自主跑代碼」這個工作負載對 sandbox 的新要求：原先 container 隔離設計給的是 trusted multi-tenant 假設，但 agent 會主動拉檔案、嘗試提權、運行不受控的 binary。Docker Sandboxes 改用 microVM 把隔離邊界推回 hypervisor 層，並把 image 啟動成本降到接近 container。對任何在生產環境裡讓 agent 自由跑 shell 的隊伍，這份文件值得讀完一次——它把「為什麼 namespace + seccomp 不夠了」講得很白。

read source → sandbox

#01

8-bit pixel 該除 255 還是 256？——把一個被當「顯而易見」的 normalize 攤開看

30fps.net 重新追問一個被當成常識的問題：把 8-bit channel 換成 0–1 浮點時，到底要除 255（讓 255 對應 1.0）還是除 256（讓 ALU 一個 shift 就完事）？兩個選擇分別對應「色彩正確」與「指令對齊」，差距小到肉眼看不出，但在 GPU LUT、video codec、SIMD blending 裡持續積累偏差。這篇把雙方放在同一張座標講清楚，給的不是答案，是「在你的 pipeline 裡，哪個誤差比較貴」的判斷。

read source → deep color

#08

Red Hat Cloud Services 偵測到惡意 npm 套件——supply chain 又一次靠人腳本撐住

Red Hat Insights 在自家 javascript-clients repo 公開報告：在 transitive dependency 樹裡攔到惡意 npm 套件，內含 exfiltration 與 backdoor 行為。事件本身規模不大，但意味著 enterprise 等級的 CI pipeline 仍是被『發了 PR、跑 lint、跑 test、merge』就放行——沒有額外的 supply-chain 信號做 gate。對任何依賴大量 npm 套件的 backend，這份 issue 是個提醒：dependabot-style 通知不等於 supply-chain 防線。

read source → supply-chain

#09

Instagram 的「最荒謬 takeover bug」——一個被當成 feature 的權限混淆

0xsid 紀錄了一個被他形容為「我見過最 goofy」的 Instagram 帳號接管缺陷：merge-account 流程裡某個 OAuth-style 通訊被當成已驗證身份，結果攻擊者只要把對手的 session ID 丟進一個 GraphQL mutation 就能完成接管。這類缺陷不需要拿 0-day、不需要熟記 cryptographic 細節——它示範了「邊角 endpoint 沒被當成安全表面」這個老問題還在持續產生事件。對 product engineer，這條 timeline 值得拿來檢視自家的「使用者 merge」「裝置 swap」「帳號鏈接」三條 flow 是不是被遺漏。

read source → auth

today's deep reads

web