2026.06.08 —— 今日 10 則

TODAY'S THREAD 今天的共同主軸是「把藏在介面背後的成本攤開來算」——Linux 想退役 fork()+exec() 那套被詬病已久的程序建立模型、LLM 推理服務不再貪婪地 chunk、Linear 把資料庫整個搬進瀏覽器換來體感速度，連「加個 queue 就好」的直覺都被 Little's Law 拆穿。

0 / 10 read

#06

Pretraining Recurrent Networks without Recurrence——把 RNN 訓練拆成監督式記憶學習

RNN 一直被 BPTT 的序列依賴卡著：時間維度展不開、長序列梯度不是爆就是消。這篇提出 Supervised Memory Training（SMT），先用一個 Transformer encoder 從 predictive-state 目標產生 memory label，再把 RNN 訓練化約成對「記憶狀態轉移」的監督學習，於是時間維度可以並行、梯度穩定。作者報告在語言模型與像素序列任務上，SMT 預訓練多種 RNN 架構都勝過標準 BPTT，給「想要 RNN 的線性推理成本、又要捕捉長程依賴」的人一條新訓練路徑。

read source → rnn

#07

Self-Augmenting Retrieval——讓 diffusion LM 用自己的低信心 token 去檢索

RAG 的常見假設是「先有 query，再去檢索」，但 discrete diffusion language model 是整段一起去噪的，沒有清楚的 query 邊界。SARDI 觀察到去噪早期那些被丟掉的低信心 token，其實常常先暴露了關鍵實體，於是直接拿這些訊號當檢索鍵——不必額外訓練，也不必為模型客製 retriever。論文聲稱在 multi-hop QA 上同時拿到更高準確率與遠高於基線的吞吐，對在做 diffusion LM 服務、又想接知識庫的人值得一看。

read source → diffusion-llm

#10

NVIDIA LocateAnything-3B——把 bounding box 座標一次平行吐出來

視覺定位模型多半把框座標當成序列逐一 decode，速度受限於自回歸的步數。NVIDIA 的 LocateAnything-3B 用 Parallel Box Decoding 一次平行預測整組座標，宣稱吞吐量最高 2.5×，涵蓋 detection、referring grounding、GUI 元件定位與文字偵測。模型在 1,200 萬張影像、逾 7.85 億個框標註上訓練；要注意它是 NVIDIA 專有授權、僅限非商用研究。對在做 agent 螢幕理解或大量視覺定位的人，平行 decode 是把延遲壓下來的關鍵點。

read source → vision-language

#01

Linux 想退役 fork() + exec()——四條取代路線攤在桌上

fork() 在多執行緒時代越來越尷尬：它複製整個位址空間，下一行 exec() 又馬上丟掉，COW 與 vfork() 各有死角，pthread_atfork() 的鎖序更是地雷。LWN 這篇把社群正在討論的取代路線一次整理：Li Chen 被拒的 spawn templates（只快 2％）、原生 posix_spawn()、Christian Brauner 的 pidfd + pidfd_config() builder、以及 Josh Poimboeuf 把 spawn 動作搬上 io_uring。Mateusz Guzik 直接說「整個 fork+exec idiom 很糟、該退休了」，而成本大頭其實在 fork 而非 exec——對寫 runtime、container、shell 或任何大量起子程序的人，這是一場會改寫底層 API 的辯論。

read source → deep read linux-kernel

#08

Getting silly with C——把 &((int*)-8)[3] 拆開來看

lcamtuf 用一個看起來像亂碼的表達式 &((int*)-8)[3]，把 C 的指標算術一層層剝開：a[i] 為什麼等於 *(a+i)、下標其實對加法可交換、整數硬轉指標踩到哪些 UB，以及編譯器在這些角落實際會怎麼做。它不是要你寫這種程式碼，而是讓你看清語言模型底下那組規則。對讀別人惡趣味的 C、或想搞懂為什麼某段 pointer 運算在 -O2 下行為變了的人，這是一篇好玩又紮實的複習。

read source → c

#02

Beyond Greedy Chunking——LLM 推理排程不該只看眼前這個 batch

現在多數 LLM 推理引擎用貪婪的 chunked-prefill：把 prompt 切塊塞進當前 batch，能塞就塞，結果常常為了眼前吞吐犧牲尾延遲與 SLO。SlidingServe 改用 SLO-aware 的滑動視窗排程，靠一個 batch latency predictor 與動態規劃，同時參考當前與下一個 iteration 的資訊來決定 batch 組成。論文報告 service capacity 最高提升 30％、重載下 SLO 違規率降低 16%–53%。對在自架 vLLM／SGLang 這類服務、被 P99 latency 與 SLO 追著跑的人，這把「排程」從拍腦袋變成可量化的取捨。

read source → llm-inference

#03

How is Linear so fast——把資料庫整個搬進瀏覽器

Linear 的「快」不是某個單點優化，而是把架構反過來：UI 真正讀的資料庫在瀏覽器的 IndexedDB 裡，mutation 先在本地的 MobX observable 套用、立刻回饋，再非同步推給伺服器，伺服器確認只是驗證而非許可。granular observable 讓 50 筆批次更新只觸發 50 個 cell 重繪而非整列串接重繪；bundle 一路從 Parcel 換到 Rolldown，配上數百個 modulepreload 與 service worker 預快取約 1,200 個資產。對在做需要「體感即時」的協作型 web app 的人，這是一份把 local-first sync engine 講清楚的範本。

read source → deep read local-first

#09

April in Servo——Android UI、focus、表單與一批安全修補

Servo 這份四月進度報告繼續補齊一個獨立瀏覽器引擎該有的東西：新的 Android UI、focus 管理、表單元件支援，外加一輪安全性修補。它的意義不在單一功能，而在於除了 Blink／WebKit／Gecko 之外，還有一個用 Rust 從頭寫的引擎在穩定推進。對關心 web 平台多樣性、或想拿 Servo 當嵌入式渲染器的人，這份月報是追蹤它「能不能拿來用」的好刻度。

read source → browser-engine

#04

Why Queues Don't Fix Overload——加 queue 只是把崩潰往後延

「先加個 queue 緩衝一下」是過載時的直覺反應，但作者用浴缸的物理打臉：只要流入長期大於流出，再大的緩衝也只是延後溢出。Little's Law（L = λW）說明當到達率超過處理能力，佇列深度就往無限長，延遲跟著爆、使用者 timeout 重試、重試又推高 λ，形成 latency death spiral。正解不是更大的 queue，而是有界佇列加上 load shedding 與 backpressure——明確、同步地拒絕多出來的工作。對在設計訊息系統、API gateway 或任何高併發後端的人，這篇把「容量」這件事講回到第一性原理。

read source → deep read backpressure

#05

我們對 serializable isolation 的恐懼，是否大過對 subtle bug 的恐懼

很多團隊預設用 read committed 或 snapshot isolation，把 serializable 當成「太慢、不敢用」的選項，於是把 write skew 之類的併發異常留給應用層自己處理——而那些 bug 往往很難重現、很晚才炸。這篇從 YDB 的角度反問：我們對 serializable 效能成本的恐懼，是不是其實大過對這些 subtle 併發 bug 的恐懼？文章把隔離級別的取捨、retry 成本與正確性收益並排，提醒在重新評估時別只看 benchmark 數字。對在設計交易邊界、或正在選 isolation level 的後端工程師，這是一個值得回頭審視預設值的角度。

read source → isolation-levels

today's deep reads

deep · 01 Linux 想退役 fork() + exec()——spawn templates、posix_spawn、pidfd_config 與 io_uring 四條路線 deep · 02 How is Linear so fast——把資料庫搬進瀏覽器後，每一層為什麼都得跟著改 deep · 03 Why Queues Don't Fix Overload——從 Little's Law 到 load shedding 的過載自保