vatt'ghern jaskier's ballads

2026.06.05 —— 今日 10 則

TODAY'S THREAD 今天最有看頭的幾則,主旋律都是「在某處多付一點,換回一個卡死的資源上限」:blqsort 多花一倍 copy 換掉分支預測失誤、KVarN 用 4-bit key/2-bit value 換回 KV cache 容量卻不掉 throughput、HRM-Text 用遞迴深度換掉參數量、Step-3.7-Flash 把推理深度做成 low/medium/high 三段可選的成本旋鈕。另一邊是工具與標準的歸位——Vite 團隊併進 Cloudflare、NGINX 把 keep-alive 設成預設、AV2 規格落地、Notion 把資料釘回它該在的地區。

10 items ai · 3 systems · 2 infra · 2 web · 2 backend · 1
0 / 10 read
#04

KVarN:把 KV cache 壓到 4-bit key/2-bit value,還比 FP16 快

KV cache 是長 context LLM 推論的記憶體瓶頸,但既有量化常以掉 throughput 為代價(TurboQuant 報 40–52% 下降)。KVarN 走 variance-normalized 路線:先用 Hadamard rotation 把 per-channel outlier 攤平、再做 Sinkhorn 式的 column/row 迭代標準化,最後非對稱量化成 4-bit key、2-bit value(group size 128),並以 vLLM fork 形式靠單一 flag --kv-cache-dtype kvarn_k4v2_g128 開啟。Qwen3-32B 上報約 4× KV 容量、throughput 還高於 FP16 且維持 FP16 等級準確度。

read source → deep read llm-inference

#09

HRM-Text-1B:雙時間尺度遞迴,用固定參數換無界運算深度

Sapient 把 Hierarchical Reasoning Model 套到文字上——兩個共用 block 設計(gated attention、RoPE、SwiGLU、pre-RMSNorm)的 Transformer 模組 H(慢)與 L(快)對同一組 embedding 交替迭代,每次 forward 跑 2×3 個 cycle,用遞迴換到「固定參數、卻有效無界的運算深度」。約 1B 參數、1536 hidden、每堆疊 16 層,以 PrefixLM 在 40B token 上預訓,Apache 2.0 釋出。對在追非 scaling-law 路線、想用深度而非參數量換推理能力的人,這是一個可上手的對照點。

read source → model-architecture

#10

Step-3.7-Flash:198B MoE、11B 啟用的 agentic VLM

StepFun 釋出 Step-3.7-Flash:198B 稀疏 MoE、每 token 啟用約 11B,配 1.8B 視覺 encoder 與 256k context,主打高頻 production 與 agentic 工作流的「感知、搜尋、推理」而非純拚速度,並提供 low/medium/high 三段可選 reasoning。基準上 SimpleVQA(search)79.2 拿第一、ClawEval-1.1 67.1 明顯領先、SWE-Bench PRO 56.3 第二,吞吐達每秒約 400 token,以 Apache 2.0 釋出。對在挑可自架 agentic 模型、又在意執行可靠度與成本檔位的人,這是把「可調推理深度」做進產品線的開源樣本。

read source → stepfun

#01

Branchless Quicksort:比 std::sort 與 pdqsort 都快的單檔排序

blqsort 把 partition 裡的 if 換成「無條件寫入、再用比較結果 0/1 推進指標」的 branchless 寫法,靠多花約一倍 copy 換掉 branch misprediction——對 trivially-copyable 型別反而更快。作者報的數字:50M doubles 在 AMD Ryzen 上 std::sort 5.56s、pdqsort 2.81s、blqsort 單執行緒 2.06s;自訂 struct 更拉開到 std::sort 4.75s 對 blqsort 2.20s。提供 C 與 C++ 各兩份 single-header,非平凡型別自動切到只搬 index 的 BlockQuicksort 變體。

read source → deep read sorting

#07

C++ 標準函式庫十五年來一直在走回頭路——而且有據可查

一篇整理文把 C++ 標準函式庫過去十五年「立了又收」的設計決定攤開來看,並附上可查的提案與會議記錄當證據。從被默默削弱或撤回的 API,到方向反覆的容器與工具,作者想點出的是:委員會口中的「穩定」承諾,和實際演進之間有不小落差。對長期維護 C++ 程式碼、要決定哪些標準特性值得押注的人,這是一份提醒「標準也會走回頭路」的清單。

read source → cpp

#05

NGINX 1.29.7:對 upstream 的 keep-alive 變成預設

NGINX 1.29.7 把對 upstream 的連線預設從 HTTP/1.0(每次都新開連線)改成持久 keep-alive,省下反覆握手、降低延遲、改善 TTFB。對長期手動加 keepalive 指令的反向代理設定,這是一個會直接改變預設行為的版本——升級時要留意 upstream 端是否也準備好接受持久連線。同一波 1.29.6/1.29.7 還把 session persistence 與 multipath TCP 從 Plus 開源進 OSS。

read source → nginx

#08

用 RFC 2136 做 Dynamic DNS——一個近三十年的協定還在服役

一個 Dynamic DNS 服務示範用 RFC 2136 的 DNS UPDATE 直接更新記錄,而非各家自訂 API。作者同時點出這個近三十年的協定缺乏現代防護——例如對 replay attack 沒有內建保護,得靠 TSIG 與傳輸層補齊。對自架 DNS、或想把動態 IP 綁上自有網域的人,這是「用標準協定而非廠商鎖定」的一條路,代價是安全性要自己顧。

read source → dns

#03

AV2 影像編碼正式發布——AV1 的接班人,但硬體還要再等幾年

Alliance for Open Media 在 5/28 釋出 AV2 規格 v1.0.0 與 AVM 參考軟體,定位是 AV1 的接班人,主打更低位元率下的同等畫質,並強化 AR/VR、分割畫面與螢幕內容場景。但現實是:軟體編碼器目前約 1fps,硬體加速與真正落地預期要等到 2028–2030。對做串流與前端影音的人,這代表 codec 路線圖又往前挪了一格,短期內仍是 AV1 與 H.265 的天下。

read source → codec

#06

VoidZero 加入 Cloudflare——Vite/Vitest/Rolldown 的歸宿

打造 Vite、Vitest、Rolldown 的 VoidZero 團隊宣布加入 Cloudflare,並強調工具會維持開源與 vendor-agnostic。對整個前端生態,這代表 JS 建置工具鏈的核心維護者落到一家 edge 平台公司手上——好處是有穩定金主與 runtime 整合的想像,疑慮則是中立性與治理。短期 Vite 的開發節奏不會變,但長線的方向值得追。

read source → build-tools

#02

Notion 把資料釘在原地區——跨 search、analytics、AI 的多區域改造

為了符合資料落地法規,Notion 讓客戶資料「永遠不離開所屬地區」——不管是被索引進搜尋、跑分析、還是轉成 AI embedding。做法是每地區一套獨立 data lake:Debezium 從 PostgreSQL CDC 進 Kafka、地區內 Spark 轉換、Elasticsearch 只用本地資料建索引,AI 嵌入也由地區 vector DB 承接,靠 workspace ID 當路由與分區鍵把處理釘在正確地區。中央只留不碰客戶資料的 Airflow,EU/US 各自的 sanitization pipeline 把資料洗淨後才進共用 Snowflake,目標是「幾天而非幾個月」就能把資料棧開到新地區。

read source → deep read data-residency

today's deep reads

deep · 01 用多搬一倍資料換回排序速度——拆 blqsort 的 branchless partition 與 fallback deep · 02 把客戶資料釘在它的地區——Notion 跨 search/analytics/AI 的多區域改造 deep · 03 KV cache 為什麼能壓到 4-bit/2-bit 還不掉準確度——從 variance normalization 講起