2026.06.17 —— 今日 10 則
TODAY'S THREAD 今天的線索是「把保證寫進本來沒有保證的地方」——Rust 把 ownership 延伸到 GPU kernel、HTTP 用 QUERY 補上帶 body 的安全查詢、obliv-clang 把抗側通道編進 C++;另一頭,一個藏在 npm prepare 的後門、加上 Chrome 對 Manifest V2 的終結,提醒你信任的邊界從來不在元件內部,而在安裝與更新的那一刻。
Coding agent 把 KVCache 壓垮了——CacheWise 怎麼接住
Coding agent 是成長最快的 LLM 應用之一,但它的 serving 行為和聊天負載很不一樣:session 會反覆重用很長的 prefix,對 KVCache 造成持續壓力,而傳統 serving 策略處理得很差。CacheWise 在 vLLM 上實作了一層 KVCache 管理,結合 prefix-aware 排程與靠 tool-call metadata 預測的 reuse-aware eviction。論文宣稱 KVCache eviction 最多降 2 到 2.6 倍、整體 session 完成時間最多快 3.5 倍。
Tangram:把 GPU 的異質性藏起來,讓舊平行化器照用
GPU 叢集因為陸續加入不同世代的卡而越來越異質,自動平行化器面對爆炸的搜尋空間,常被迫砍掉 expert parallelism 或 ZeRO 這類技巧,結果生出更差的計畫。Tangram 的做法是把「異質性」和「平行化規劃」解耦:因為大批採購會帶來一組組規格相近的卡,它把這些同質的 GPU island 暴露給既有的平行化器,再把模型切片組成負載平衡的 pipeline。論文宣稱訓練吞吐量比現有的 Metis、Sailor 等異質平行化器最多高 2.3 倍。
現在在自己機器上跑 LLM,真的可以了
vickiboykis 盤點了一件這一兩年悄悄翻盤的事:在自己的機器上跑 LLM,工具鏈已經成熟到實用。文章從硬體一路講到推論引擎,重點不是某個模型多強,而是整個本地端的體驗終於順了。對在評估本地推論的人,這是一份務實的現況回顧——這則在 Hacker News 與 Lobsters 上同時被推到前排。
把 fearless concurrency 帶上 GPU——cuTile Rust
Rust 把安全的系統程式設計帶到了 CPU,但寫 GPU kernel 時,程式設計師還是得跳出語言的 ownership 保護傘。一篇新論文提出 cuTile Rust,把 Rust 的 ownership 紀律延伸到 tile-based 的 GPU kernel:可變輸出被切成互不重疊的片段,kernel 啟動仍維持 host 端的 ownership 契約,需要時可在局部 opt out。論文宣稱在 NVIDIA B200 上 GEMM 達 2 PFlop/s(cuBLAS 的 96%),效能幾乎沒有為了安全而打折。
obliv-clang——在編譯期就檢查 C++ 程式抗不抗側通道
時序與記憶體存取樣式的側通道,一直是在可信執行環境裡處理機密資料的大患。obliv-clang 是一個編譯期檢查工具,能驗證 C++ 程式是否「oblivious」——也就是執行時間與資料存取軌跡不洩漏任何祕密。它特別處理 C++ 裡棘手的任意巢狀指標,並對所訂的 oblivious 規則做了形式化的健全性證明,論文宣稱編出來的程式能勝過先前的方案。
AWS Graviton5 出了——往更大的快取與頻寬靠
AWS 發表 Graviton5 系列處理器。官方數字是:相較 Graviton4,算力最多提升 25%、L3 快取大五倍、記憶體頻寬也增強。對在 AWS 上跑運算密集或記憶體頻寬吃緊工作負載的人,這代主要往「更大的快取與頻寬」靠,值得在重新評估執行個體類型時納入考慮。
10G SFP+ 模組過熱 flapping,換 Broadcom 晶片解掉
一則務實的家用網路除錯記:作者的 Marvell 晶片 10GBASE-T SFP+ 模組(MikroTik S+RJ10)在正常情況下就飆到 93°C,天氣一熱、超過約 95°C 就開始 flapping。換成 Broadcom 晶片的模組(10Gtek ASF-10G-T80-INT)後,交換器 CPU 溫度降約 5°C,連續兩週沒再斷線。結論很直白:Marvell-based 的就是跑得燙,要找 Broadcom-based 的。
Chrome 拔掉最後的旗標,Manifest V2 正式收尾
Google 移除了 Chromium 裡最後幾個讓 Manifest V2 擴充還能運作的旗標,MV2 的淘汰正式收場。最受關注的衝擊落在廣告攔截器上——這波報導正是以「終結熱門 ad blocker」為題。對寫擴充的人,遷到 Manifest V3 已是一條沒得繞的線。
HTTP 終於有了 QUERY——帶 body 的安全查詢成標準
IETF 把 QUERY 方法定為 Proposed Standard(RFC 10008):它讓客戶端把查詢條件放進 request body、而不是塞進 URI,又保有 GET 所沒有的明確語意保證。QUERY 同時是 safe 與 idempotent、回應可被快取——等於補上「帶 body 的安全查詢」這個長年只能用 POST 將就的缺口。對在設計需要長查詢條件 API 的人,這是一個可以開始規劃的標準。
藏在 npm install 裡的後門——一封 LinkedIn 職缺邀約
一位開發者收到 LinkedIn 上假招募者的「lead engineer」職缺邀約,對方請他 review 一個 GitHub repo 裡「deprecated Node modules」的問題——而後門就藏在 npm install 裡。惡意碼放在 app/test/index.js、偽裝成註解掉的測試,靠 package.json 的 prepare lifecycle script 在安裝相依套件時自動執行,再從攻擊者控制的網域抓 payload。作者自己說,在更累或更趕的一天,他很可能會先跑 npm install 才想清楚。