vatt'ghern jaskier's ballads

2026.06.08 —— 今日 10 則

TODAY'S THREAD 今天的共同主軸是「把藏在介面背後的成本攤開來算」——Linux 想退役 fork()+exec() 那套被詬病已久的程序建立模型、LLM 推理服務不再貪婪地 chunk、Linear 把資料庫整個搬進瀏覽器換來體感速度,連「加個 queue 就好」的直覺都被 Little's Law 拆穿。

10 items ai · 3 systems · 2 infra · 1 web · 2 backend · 2
0 / 10 read
#06

Pretraining Recurrent Networks without Recurrence——把 RNN 訓練拆成監督式記憶學習

RNN 一直被 BPTT 的序列依賴卡著:時間維度展不開、長序列梯度不是爆就是消。這篇提出 Supervised Memory Training(SMT),先用一個 Transformer encoder 從 predictive-state 目標產生 memory label,再把 RNN 訓練化約成對「記憶狀態轉移」的監督學習,於是時間維度可以並行、梯度穩定。作者報告在語言模型與像素序列任務上,SMT 預訓練多種 RNN 架構都勝過標準 BPTT,給「想要 RNN 的線性推理成本、又要捕捉長程依賴」的人一條新訓練路徑。

read source → rnn

#07

Self-Augmenting Retrieval——讓 diffusion LM 用自己的低信心 token 去檢索

RAG 的常見假設是「先有 query,再去檢索」,但 discrete diffusion language model 是整段一起去噪的,沒有清楚的 query 邊界。SARDI 觀察到去噪早期那些被丟掉的低信心 token,其實常常先暴露了關鍵實體,於是直接拿這些訊號當檢索鍵——不必額外訓練,也不必為模型客製 retriever。論文聲稱在 multi-hop QA 上同時拿到更高準確率與遠高於基線的吞吐,對在做 diffusion LM 服務、又想接知識庫的人值得一看。

read source → diffusion-llm

#10

NVIDIA LocateAnything-3B——把 bounding box 座標一次平行吐出來

視覺定位模型多半把框座標當成序列逐一 decode,速度受限於自回歸的步數。NVIDIA 的 LocateAnything-3B 用 Parallel Box Decoding 一次平行預測整組座標,宣稱吞吐量最高 2.5×,涵蓋 detection、referring grounding、GUI 元件定位與文字偵測。模型在 1,200 萬張影像、逾 7.85 億個框標註上訓練;要注意它是 NVIDIA 專有授權、僅限非商用研究。對在做 agent 螢幕理解或大量視覺定位的人,平行 decode 是把延遲壓下來的關鍵點。

read source → vision-language

#01

Linux 想退役 fork() + exec()——四條取代路線攤在桌上

fork() 在多執行緒時代越來越尷尬:它複製整個位址空間,下一行 exec() 又馬上丟掉,COW 與 vfork() 各有死角,pthread_atfork() 的鎖序更是地雷。LWN 這篇把社群正在討論的取代路線一次整理:Li Chen 被拒的 spawn templates(只快 2%)、原生 posix_spawn()、Christian Brauner 的 pidfd + pidfd_config() builder、以及 Josh Poimboeuf 把 spawn 動作搬上 io_uring。Mateusz Guzik 直接說「整個 fork+exec idiom 很糟、該退休了」,而成本大頭其實在 fork 而非 exec——對寫 runtime、container、shell 或任何大量起子程序的人,這是一場會改寫底層 API 的辯論。

read source → deep read linux-kernel

#08

Getting silly with C——把 &((int*)-8)[3] 拆開來看

lcamtuf 用一個看起來像亂碼的表達式 &((int*)-8)[3],把 C 的指標算術一層層剝開:a[i] 為什麼等於 *(a+i)、下標其實對加法可交換、整數硬轉指標踩到哪些 UB,以及編譯器在這些角落實際會怎麼做。它不是要你寫這種程式碼,而是讓你看清語言模型底下那組規則。對讀別人惡趣味的 C、或想搞懂為什麼某段 pointer 運算在 -O2 下行為變了的人,這是一篇好玩又紮實的複習。

read source → c

#02

Beyond Greedy Chunking——LLM 推理排程不該只看眼前這個 batch

現在多數 LLM 推理引擎用貪婪的 chunked-prefill:把 prompt 切塊塞進當前 batch,能塞就塞,結果常常為了眼前吞吐犧牲尾延遲與 SLO。SlidingServe 改用 SLO-aware 的滑動視窗排程,靠一個 batch latency predictor 與動態規劃,同時參考當前與下一個 iteration 的資訊來決定 batch 組成。論文報告 service capacity 最高提升 30%、重載下 SLO 違規率降低 16%–53%。對在自架 vLLM/SGLang 這類服務、被 P99 latency 與 SLO 追著跑的人,這把「排程」從拍腦袋變成可量化的取捨。

read source → llm-inference

#03

How is Linear so fast——把資料庫整個搬進瀏覽器

Linear 的「快」不是某個單點優化,而是把架構反過來:UI 真正讀的資料庫在瀏覽器的 IndexedDB 裡,mutation 先在本地的 MobX observable 套用、立刻回饋,再非同步推給伺服器,伺服器確認只是驗證而非許可。granular observable 讓 50 筆批次更新只觸發 50 個 cell 重繪而非整列串接重繪;bundle 一路從 Parcel 換到 Rolldown,配上數百個 modulepreload 與 service worker 預快取約 1,200 個資產。對在做需要「體感即時」的協作型 web app 的人,這是一份把 local-first sync engine 講清楚的範本。

read source → deep read local-first

#09

April in Servo——Android UI、focus、表單與一批安全修補

Servo 這份四月進度報告繼續補齊一個獨立瀏覽器引擎該有的東西:新的 Android UI、focus 管理、表單元件支援,外加一輪安全性修補。它的意義不在單一功能,而在於除了 Blink/WebKit/Gecko 之外,還有一個用 Rust 從頭寫的引擎在穩定推進。對關心 web 平台多樣性、或想拿 Servo 當嵌入式渲染器的人,這份月報是追蹤它「能不能拿來用」的好刻度。

read source → browser-engine

#04

Why Queues Don't Fix Overload——加 queue 只是把崩潰往後延

「先加個 queue 緩衝一下」是過載時的直覺反應,但作者用浴缸的物理打臉:只要流入長期大於流出,再大的緩衝也只是延後溢出。Little's Law(L = λW)說明當到達率超過處理能力,佇列深度就往無限長,延遲跟著爆、使用者 timeout 重試、重試又推高 λ,形成 latency death spiral。正解不是更大的 queue,而是有界佇列加上 load shedding 與 backpressure——明確、同步地拒絕多出來的工作。對在設計訊息系統、API gateway 或任何高併發後端的人,這篇把「容量」這件事講回到第一性原理。

read source → deep read backpressure

#05

我們對 serializable isolation 的恐懼,是否大過對 subtle bug 的恐懼

很多團隊預設用 read committed 或 snapshot isolation,把 serializable 當成「太慢、不敢用」的選項,於是把 write skew 之類的併發異常留給應用層自己處理——而那些 bug 往往很難重現、很晚才炸。這篇從 YDB 的角度反問:我們對 serializable 效能成本的恐懼,是不是其實大過對這些 subtle 併發 bug 的恐懼?文章把隔離級別的取捨、retry 成本與正確性收益並排,提醒在重新評估時別只看 benchmark 數字。對在設計交易邊界、或正在選 isolation level 的後端工程師,這是一個值得回頭審視預設值的角度。

read source → isolation-levels

today's deep reads

deep · 01 Linux 想退役 fork() + exec()——spawn templates、posix_spawn、pidfd_config 與 io_uring 四條路線 deep · 02 How is Linear so fast——把資料庫搬進瀏覽器後,每一層為什麼都得跟著改 deep · 03 Why Queues Don't Fix Overload——從 Little's Law 到 load shedding 的過載自保