2026.06.05 —— 今日 10 則

TODAY'S THREAD 今天最有看頭的幾則，主旋律都是「在某處多付一點，換回一個卡死的資源上限」：blqsort 多花一倍 copy 換掉分支預測失誤、KVarN 用 4-bit key／2-bit value 換回 KV cache 容量卻不掉 throughput、HRM-Text 用遞迴深度換掉參數量、Step-3.7-Flash 把推理深度做成 low／medium／high 三段可選的成本旋鈕。另一邊是工具與標準的歸位——Vite 團隊併進 Cloudflare、NGINX 把 keep-alive 設成預設、AV2 規格落地、Notion 把資料釘回它該在的地區。

0 / 10 read

#04

KVarN：把 KV cache 壓到 4-bit key／2-bit value，還比 FP16 快

KV cache 是長 context LLM 推論的記憶體瓶頸，但既有量化常以掉 throughput 為代價（TurboQuant 報 40–52% 下降）。KVarN 走 variance-normalized 路線：先用 Hadamard rotation 把 per-channel outlier 攤平、再做 Sinkhorn 式的 column／row 迭代標準化，最後非對稱量化成 4-bit key、2-bit value（group size 128），並以 vLLM fork 形式靠單一 flag --kv-cache-dtype kvarn_k4v2_g128 開啟。Qwen3-32B 上報約 4× KV 容量、throughput 還高於 FP16 且維持 FP16 等級準確度。

read source → deep read llm-inference

#09

HRM-Text-1B：雙時間尺度遞迴，用固定參數換無界運算深度

Sapient 把 Hierarchical Reasoning Model 套到文字上——兩個共用 block 設計（gated attention、RoPE、SwiGLU、pre-RMSNorm）的 Transformer 模組 H（慢）與 L（快）對同一組 embedding 交替迭代，每次 forward 跑 2×3 個 cycle，用遞迴換到「固定參數、卻有效無界的運算深度」。約 1B 參數、1536 hidden、每堆疊 16 層，以 PrefixLM 在 40B token 上預訓，Apache 2.0 釋出。對在追非 scaling-law 路線、想用深度而非參數量換推理能力的人，這是一個可上手的對照點。

read source → model-architecture

#10

Step-3.7-Flash：198B MoE、11B 啟用的 agentic VLM

StepFun 釋出 Step-3.7-Flash：198B 稀疏 MoE、每 token 啟用約 11B，配 1.8B 視覺 encoder 與 256k context，主打高頻 production 與 agentic 工作流的「感知、搜尋、推理」而非純拚速度，並提供 low／medium／high 三段可選 reasoning。基準上 SimpleVQA（search）79.2 拿第一、ClawEval-1.1 67.1 明顯領先、SWE-Bench PRO 56.3 第二，吞吐達每秒約 400 token，以 Apache 2.0 釋出。對在挑可自架 agentic 模型、又在意執行可靠度與成本檔位的人，這是把「可調推理深度」做進產品線的開源樣本。

read source → stepfun

#01

Branchless Quicksort：比 std::sort 與 pdqsort 都快的單檔排序

blqsort 把 partition 裡的 if 換成「無條件寫入、再用比較結果 0／1 推進指標」的 branchless 寫法，靠多花約一倍 copy 換掉 branch misprediction——對 trivially-copyable 型別反而更快。作者報的數字：50M doubles 在 AMD Ryzen 上 std::sort 5.56s、pdqsort 2.81s、blqsort 單執行緒 2.06s；自訂 struct 更拉開到 std::sort 4.75s 對 blqsort 2.20s。提供 C 與 C++ 各兩份 single-header，非平凡型別自動切到只搬 index 的 BlockQuicksort 變體。

read source → deep read sorting

#07

C++ 標準函式庫十五年來一直在走回頭路——而且有據可查

一篇整理文把 C++ 標準函式庫過去十五年「立了又收」的設計決定攤開來看，並附上可查的提案與會議記錄當證據。從被默默削弱或撤回的 API，到方向反覆的容器與工具，作者想點出的是：委員會口中的「穩定」承諾，和實際演進之間有不小落差。對長期維護 C++ 程式碼、要決定哪些標準特性值得押注的人，這是一份提醒「標準也會走回頭路」的清單。

read source → cpp

#05

NGINX 1.29.7：對 upstream 的 keep-alive 變成預設

NGINX 1.29.7 把對 upstream 的連線預設從 HTTP/1.0（每次都新開連線）改成持久 keep-alive，省下反覆握手、降低延遲、改善 TTFB。對長期手動加 keepalive 指令的反向代理設定，這是一個會直接改變預設行為的版本——升級時要留意 upstream 端是否也準備好接受持久連線。同一波 1.29.6／1.29.7 還把 session persistence 與 multipath TCP 從 Plus 開源進 OSS。

read source → nginx

#08

用 RFC 2136 做 Dynamic DNS——一個近三十年的協定還在服役

一個 Dynamic DNS 服務示範用 RFC 2136 的 DNS UPDATE 直接更新記錄，而非各家自訂 API。作者同時點出這個近三十年的協定缺乏現代防護——例如對 replay attack 沒有內建保護，得靠 TSIG 與傳輸層補齊。對自架 DNS、或想把動態 IP 綁上自有網域的人，這是「用標準協定而非廠商鎖定」的一條路，代價是安全性要自己顧。

read source → dns

#03

AV2 影像編碼正式發布——AV1 的接班人，但硬體還要再等幾年

Alliance for Open Media 在 5/28 釋出 AV2 規格 v1.0.0 與 AVM 參考軟體，定位是 AV1 的接班人，主打更低位元率下的同等畫質，並強化 AR/VR、分割畫面與螢幕內容場景。但現實是：軟體編碼器目前約 1fps，硬體加速與真正落地預期要等到 2028–2030。對做串流與前端影音的人，這代表 codec 路線圖又往前挪了一格，短期內仍是 AV1 與 H.265 的天下。

read source → codec

#06

VoidZero 加入 Cloudflare——Vite／Vitest／Rolldown 的歸宿

打造 Vite、Vitest、Rolldown 的 VoidZero 團隊宣布加入 Cloudflare，並強調工具會維持開源與 vendor-agnostic。對整個前端生態，這代表 JS 建置工具鏈的核心維護者落到一家 edge 平台公司手上——好處是有穩定金主與 runtime 整合的想像，疑慮則是中立性與治理。短期 Vite 的開發節奏不會變，但長線的方向值得追。

read source → build-tools

#02

Notion 把資料釘在原地區——跨 search、analytics、AI 的多區域改造

為了符合資料落地法規，Notion 讓客戶資料「永遠不離開所屬地區」——不管是被索引進搜尋、跑分析、還是轉成 AI embedding。做法是每地區一套獨立 data lake：Debezium 從 PostgreSQL CDC 進 Kafka、地區內 Spark 轉換、Elasticsearch 只用本地資料建索引，AI 嵌入也由地區 vector DB 承接，靠 workspace ID 當路由與分區鍵把處理釘在正確地區。中央只留不碰客戶資料的 Airflow，EU／US 各自的 sanitization pipeline 把資料洗淨後才進共用 Snowflake，目標是「幾天而非幾個月」就能把資料棧開到新地區。

read source → deep read data-residency

today's deep reads

deep · 01 用多搬一倍資料換回排序速度——拆 blqsort 的 branchless partition 與 fallback deep · 02 把客戶資料釘在它的地區——Notion 跨 search／analytics／AI 的多區域改造 deep · 03 KV cache 為什麼能壓到 4-bit／2-bit 還不掉準確度——從 variance normalization 講起