vatt'ghern jaskier's ballads

2026.06.02 —— 今日 10 則

TODAY'S THREAD 三篇 deep 從三個角度看「貼地細節再拆一次」:8-bit pixel 該除 255 還是 256、Cloudflare core server 開機從幾小時拉到幾分鐘、把 RNA folding 的 Nussinov DP 偷進 GHC 的 ApplicativeDo 排程。其餘七則分兩條線:一是 AI agent 自主跑代碼帶來的隔離與安全代價(Docker Sandboxes 把 microVM 重新定義邊界、Stanford CS336 把 LLM 從零教一次、LFM2.5-8B-A1B 把 Liquid Network 推到 MoE);二是供應鏈邊角持續被打(Red Hat npm 套件被植入惡意程式、Instagram 帳號被一個荒謬的 takeover 缺陷打穿、十年的 Xeon 仍跑得動現代 Gemma)。底層、模型、邊界——三個方向同一個問題:哪些假設仍站得住、哪些已經悄悄翻面。

10 items ai · 3 systems · 2 infra · 2 web · 1 backend · 2
0 / 10 read
#03

Stanford CS336:從零訓一個 language model 的完整公開課

Stanford 把 CS336「Language Modeling from Scratch」整套課程資料公開:從 tokenizer、attention 變體、訓練 loop、scaling laws、post-training(SFT + RLHF),一路講到 inference 與 serving。對被「先看哪一篇 paper」卡住的工程師,這是一張完整的 prerequisite 圖,把零散的部落格內容串成有順序的學習路線。對自家也在訓小模型的隊伍,課堂作業裡的 distributed training 與 RLHF 練習可以直接拿來壓力測自己的 stack。

read source → llm-training

#07

Liquid AI 釋出 LFM2.5-8B-A1B:把 liquid network 推到 MoE,8B 參數只用 1B active

Liquid AI 上架 LFM2.5-8B-A1B:八十億參數的 mixture-of-experts,每個 token 只啟用約 10 億——延續他們以 continuous-time recurrent 為基底、長 context 比 transformer 省記憶體的路線,但這次把 inference 計算量壓得更狠。對在邊緣、CPU、或 mid-range GPU 上跑 LLM 的人,這是一個不需要 H100 也能跑得動的選項;架構上的設計選擇也值得對比 DeepSeek-MoE、Mixtral 之類同樣走稀疏激活的對手。

read source → moe

#10

十年的 Xeon 還夠用——把 Gemma 4 跑在 2016 年的伺服器上

point.free 把 Google 的 Gemma 4 模型搬到一台 2016 年的 Xeon 工作機上跑,記下 token/s、記憶體與功耗。結論之一:對 7B 以下的指令模型,dedicated GPU 不再是門票,二手伺服器級 CPU 配合 llama.cpp 之類的執行框架已經能撐住輕量推論工作。對內網要部署 LLM 但預算被 GPU 採購卡死的隊伍,這條路徑值得拿在手上算 TCO——不是替換 GPU,是讓「先試先跑」的入門成本變成幾乎為零。

read source → cpu-inference

#04

把 RNA folding 偷進 GHC——用 Nussinov 1978 改寫 ApplicativeDo 的排程

Ian Duncan 把 GHC 一個被 -foptimal-applicative-do flag 隱藏多年的優化重新打開:do-block 的排程問題剛好對應到 RNA 二級結構摺疊,於是直接套 Nussinov 1978 的區間 DP,再加上 longest-chain bound 剪枝。1,000-statement worst-case 從 55 秒降到秒級;200-statement adversarial 鏈的 cut-check 數從 1,333,300 降到 19,900(67×)。對任何在管 build performance 的隊伍,這條 cross-pollination 提醒:很多 compile-time 問題不在 compiler 自己的文獻裡。

read source → deep compilers

#05

Zstandard 有了原生 Rust 實作——壓縮演算法跨語言重寫的新一輪

Trifecta Tech 公開 Zstandard 的原生 Rust port:不再透過 zstd-sys 綁定 C 程式碼,整個 entropy coder、frame format、dictionary 機制都用 Rust 重寫。對任何在 Rust 生態鏈裡掙扎於 unsafe FFI 與 build-time 的人,這代表壓縮這層終於可以拿掉 C 依賴;同時也再次驗證了「把成熟 C library 重寫成記憶體安全版本」這條路徑可行——只是要忍受 multi-year 的工程投入。

read source → rust

#02

Cloudflare 把 core server 開機從幾小時縮到幾分鐘——拆掉 UEFI、iPXE 與 firmware 的隱形 timeout

Cloudflare 在 firmware update 階段發現 core unit 整套 reboot 動輒幾小時,沿著 UEFI 資料結構 timeout、iPXE 自動化腳本、serial console 等待逐層挖,把每一步壓到該有的時間。對於要管十萬台機器、每季都得 firmware update 的 fleet 來說,每台節省的不是分鐘,是維護視窗本身。這條 debugging 路徑也是一份『開機鏈到底由誰負責』的活教材。

read source → deep boot-time

#06

Docker 把 AI agent 重新放回隔離問題的核心——untrusted autonomous workload 的 microVM 解法

Docker 整理了「AI coding agent 自主跑代碼」這個工作負載對 sandbox 的新要求:原先 container 隔離設計給的是 trusted multi-tenant 假設,但 agent 會主動拉檔案、嘗試提權、運行不受控的 binary。Docker Sandboxes 改用 microVM 把隔離邊界推回 hypervisor 層,並把 image 啟動成本降到接近 container。對任何在生產環境裡讓 agent 自由跑 shell 的隊伍,這份文件值得讀完一次——它把「為什麼 namespace + seccomp 不夠了」講得很白。

read source → sandbox

#01

8-bit pixel 該除 255 還是 256?——把一個被當「顯而易見」的 normalize 攤開看

30fps.net 重新追問一個被當成常識的問題:把 8-bit channel 換成 0–1 浮點時,到底要除 255(讓 255 對應 1.0)還是除 256(讓 ALU 一個 shift 就完事)?兩個選擇分別對應「色彩正確」與「指令對齊」,差距小到肉眼看不出,但在 GPU LUT、video codec、SIMD blending 裡持續積累偏差。這篇把雙方放在同一張座標講清楚,給的不是答案,是「在你的 pipeline 裡,哪個誤差比較貴」的判斷。

read source → deep color

#08

Red Hat Cloud Services 偵測到惡意 npm 套件——supply chain 又一次靠人腳本撐住

Red Hat Insights 在自家 javascript-clients repo 公開報告:在 transitive dependency 樹裡攔到惡意 npm 套件,內含 exfiltration 與 backdoor 行為。事件本身規模不大,但意味著 enterprise 等級的 CI pipeline 仍是被『發了 PR、跑 lint、跑 test、merge』就放行——沒有額外的 supply-chain 信號做 gate。對任何依賴大量 npm 套件的 backend,這份 issue 是個提醒:dependabot-style 通知不等於 supply-chain 防線。

read source → supply-chain

#09

Instagram 的「最荒謬 takeover bug」——一個被當成 feature 的權限混淆

0xsid 紀錄了一個被他形容為「我見過最 goofy」的 Instagram 帳號接管缺陷:merge-account 流程裡某個 OAuth-style 通訊被當成已驗證身份,結果攻擊者只要把對手的 session ID 丟進一個 GraphQL mutation 就能完成接管。這類缺陷不需要拿 0-day、不需要熟記 cryptographic 細節——它示範了「邊角 endpoint 沒被當成安全表面」這個老問題還在持續產生事件。對 product engineer,這條 timeline 值得拿來檢視自家的「使用者 merge」「裝置 swap」「帳號鏈接」三條 flow 是不是被遺漏。

read source → auth

today's deep reads

web

8-bit pixel 該除 255 還是 256——把 ALU、表格、美觀放上同一張座標

把一個被當「顯而易見」的選擇展開:endpoint identity vs. shift-aligned ALU,在 GPU LUT、video codec、SIMD blend 裡是真的會差。

infra

把 server 開機從幾小時拉到幾分鐘——Cloudflare 拆 UEFI、iPXE、firmware 三層遲延

Fleet-level 痛點被一條 debugging trail 攤開:哪些 timeout 來自 spec 預設、哪些是工程習慣帶來的浪費、哪些可以平行化。

systems

把 RNA folding 偷進 GHC——ApplicativeDo 排程的 Nussinov DP 重寫

Cross-pollination 的具體案例:把 RNA 二級結構摺疊的區間動態規劃套到 do-block 排程,1,000-statement worst-case 從 55 秒降到秒級。