vatt'ghern jaskier's ballads

2026.05.19 —— 今日 10 則

TODAY'S THREAD Modal 用四層快照把 GPU 冷啟動壓到 50 秒、Notion 兩年砍九成向量搜尋成本、.de TLD 的 DNSSEC rollover 引爆 SERVFAIL——今天的事都圍繞「狀態存在哪、誰負責驗證」展開。

10 items infra · 4 ai · 3 systems · 1 storage · 1 industry · 1
0 / 10 read
#01

Modal 把 GPU inference 冷啟動從 ~2,000 秒壓到 ~50 秒——LP、FUSE、C/R、CUDA-checkpoint 四段堆疊

Modal 用四段優化解掉 serverless GPU 冷啟動:LP 預熱 cloud buffer、FUSE 懶載入 container image、gVisor C/R 還原 CPU process 狀態、CUDA-checkpoint 把 device memory(含模型權重與 CUDA graph)一起 snapshot。少了任何一段,剩下的優化都會被那層的固定開銷拉回去。Q1 2026 累積還原 3,500 萬 CPU snapshot + 1,500 萬 GPU snapshot,vLLM boot mean 從 96 秒降到 14 秒。

read source → deep ↗ serverless-GPU

#05

Cloudflare 用 Anthropic Mythos 掃自家 50+ repo——單一 agent 只能覆蓋 0.1%、改靠 8 階段並行 harness

Cloudflare 在 Project Glasswing 框架下把 Anthropic 的 Mythos Preview(去除一般 safety guardrail 的安全研究模型)放上自家 runtime / 邊緣資料路徑 / 協定棧 / 控制平面 / 開源依賴等 50+ repo,發現「把整個 repo 丟給單一 agent」只能涵蓋約 0.1% 的攻擊面、且 C/C++ false positive 率特別高。他們改成 8 階段管線:Recon → 50 個並行 narrow-scope Hunt agent → Validate 反證 → Gapfill → Dedupe → Trace(驗 attacker 可達性)→ Feedback → Report。結論是「不要對模型說 find vulnerabilities in this repo——那只會讓它亂走」,能力夠強但問題得切細。

read source → AI-security

#08

Google + UCSD 把 diffusion-style speculative decoding 接到 TPU——Llama-3.1-8B 端到端快 2.29×

DFlash 用 block diffusion 一次 forward 就出整個 block 的 candidate token,取代傳統 autoregressive drafter 的 O(K) 次串行前向;接到 TPU v5p / vLLM tpu-inference (PR #1868–1870) 後,Llama-3.1-8B 端到端速比 EAGLE-3 的 1.30× 提升到 2.29×。單獨 JAX bench 平均 3.13×,math 任務 5.7×、coding 3.5×。關鍵硬體洞察:TPU v5p 上驗 1024 token 和驗 16 token 算力幾乎相同,weight load 才是主導,所以堆寬 block 幾乎免費——優化重點轉移到 draft 品質。

read source → speculative-decoding

#04

.NET 10 把 NuGet package pruning 設為預設——transitive vulnerability 報告少 70%、restore 省一半時間

.NET SDK 維護一份「target framework 已內建套件」清單,restore 時 NuGet 比對 transitive dependency 並直接把 System.Text.Json / System.Threading.Channels 這類 platform-provided package 從 graph 上剔除;直接 reference 則改 PrivateAssets='all'、用 runtime 自帶版本。微軟內部 telemetry 顯示 transitive vulnerability 報告比舊預設少 70%、restore 時間最多省 50%。同步把 NuGetAuditMode 預設改成 'all'、新增 NU1510 訊號提醒可移除的直接 reference,audit 雜訊從此不再被內建套件淹沒。

read source → NuGet

#03

.de TLD 一次 KSK rollover 發出無法驗證的 RRSIG——1.1.1.1 靠 stale-serve 撐到 NTA 部署

2026-05-05 19:30 UTC,DENIC 在一次例行 KSK rollover 中發出無法驗證的 RRSIG(包含 EDE 6 / "DNSSEC Bogus"),所有遵守 DNSSEC 規範的 validating resolver 必須對 .de 網域回 SERVFAIL——百萬等級網域瞬間消失於 internet。1.1.1.1 用 stale-serve 撐住既有快取的 NOERROR 比例、在 22:17 UTC 部署 negative trust anchor 結束影響;DENIC 已暫停後續 rollover 等技術根因分析。Cloudflare 自我檢討:未來要把 EDE (Extended DNS Errors) 對 DNSSEC 失敗的 propagation 做得更明確。

read source → deep ↗ DNSSEC

#06

GitHub Issues 把導航延遲 P10 從 600ms 砍到 70ms——IndexedDB + service worker + 預熱

GitHub Issues 把 React soft / Turbo / hard 三種導航都接到 IndexedDB 持久 cache,service worker 命中時請求伺服器只回「thin HTML shell + minimal markup」、React 直接從本地快取渲染;hard navigation 因此也能在快取命中時做 instant transition。預熱(preheating)只在 issue list、dashboard 這類高意圖介面觸發,cache 命中率拉到 96%,client/server staleness 約 4.7% 是可接受的營運窗。整體 P10 600 → 70 ms(-88%)、P50 1,200 → 700 ms(-42%)、P25 800 → 120 ms。

read source → web-perf

#07

Discord 用 Rust 寫的 Scylla Control Plane——cluster provisioning 從 36 小時降到 2 小時

Discord Persistence Infrastructure 團隊把 ScyllaDB cluster 的開新、加節點、rolling Ubuntu/Scylla 升級、shadow cluster 複製全收進 Rust 寫的 Scylla Control Plane(SCP):YAML workflow 描述 Task 序列,每個 Task 有 precondition + 必須 idempotent,SQLite 追蹤 job state 讓中斷後可續跑。以前手動 36 小時的新 cluster provisioning 現在 ~2 小時,而且大部分時間是 engineer 去做別的事、等 node bootstrap 的 60 秒成功窗結束。7 個人管 dozens of clusters、數百個節點。

read source → ScyllaDB

#09

Dropbox 把 monorepo 從 87 GB 縮到 20 GB——不刪程式碼、只重排 git delta

Dropbox 把 monorepo 從 87 GB 縮到 20 GB(-77%)、clone 時間從一小時以上降到 15 分鐘以內——而且沒刪任何程式碼。元兇是 git 的 delta 配對只看檔案路徑「最後 16 字元」,遇到 i18n/metaserver/[lang]/LC_MESSAGES/*.po 這種結構時把不同語言的翻譯檔互算 delta,每次翻譯更新都產生不成比例的大 pack。解法是用 git repack --path-walk --depth=250 --window=250,在 GitHub 跑 ~9 小時做一次性重排。

read source → git

#02

Notion 兩年把向量搜尋成本砍九成——pod 改 Turbopuffer、Page State Project 把 re-embed 量再砍 70%

Notion 兩年內把向量搜尋從專屬「pod」cluster 改成 Turbopuffer(object storage 上的 serverless vector DB),索引容量擴 8 倍、活躍 workspace 擴 15 倍、單日 onboarding 擴 600 倍。成本走四階段疊加:serverless 化 -50%、Turbopuffer 搬遷 -60% 搜尋成本 + -35% EMR、Page State Project 用 xxHash64 比對只 re-embed 變動 span -70% 資料量、Ray Serve 取代 GPU pod -90% embedding infra。p50 query latency 同步從 70–100 ms 降到 50–70 ms。

read source → deep ↗ vector-search

#10

Bitwarden 的「靜默改裝」——CEO/CFO 換手、價值觀重定義、訂閱漲一倍藏在 feature 公告

Bitwarden 在 2024 年 2 月起一連串「沒發新聞稿」的變動:CEO Michael Crandell 退任顧問、由 M&A 背景的 Michael Sullivan 接手,CFO 也換人;GRIT 價值觀的 Inclusion/Transparency 改成 Innovation/Trust;個人版頁面悄悄拿掉「Always free」承諾;訂閱單方面漲一倍藏在 feature 公告裡。所有變動都在「找得到、但不會 ping 你」的方式下完成——pattern 像在為 PE 收購整理門面。對倚賴 Bitwarden 的組織來說,這是個重新評估替代方案的時點。

read source → Bitwarden

today's deep reads

Modal 把 GPU 冷啟動壓到 50 秒——LP、FUSE、C/R、CUDA-checkpoint

LP 預熱 cloud buffer、FUSE 懶載入 container、gVisor C/R 還原 CPU process、CUDA-checkpoint snapshot device memory——四層各自針對不同的固定開銷,少一層另外三層就被那層拖回去。

Notion 向量搜尋的兩年——pod、Turbopuffer、Ray Serve

為什麼 dedicated 「pod」cluster 在第一年就撐不住?Turbopuffer 換掉的是什麼?Page State Project 的 xxHash64 比對為什麼能把 re-embed 量砍 70%?

.de TLD DNSSEC rollover 翻車——stale-serve 與 NTA 撐三小時

一次例行 KSK rollover 為何能讓整個 TLD 進入 SERVFAIL?1.1.1.1 的 stale-serve 撐住了什麼、撐不住什麼?NTA 為什麼是「對 DNSSEC 失效」的標準應急手段?