Google 發表 TurboQuant 新演算法:能壓縮 AI 記憶體需求 6 倍,記憶體股集體下挫

動區BlockTempo

Google 發布無需訓練的 TurboQuant 壓縮演算法,聲稱可將 AI 記憶體需求壓縮至少 6 倍;訊息一出,記憶體股集體跳水,但分析師有不同看法。
(前情提要:Google 訂 2029 年完成後量子密碼遷移,比政府目標早六年,加密產業須跟上)
(背景補充:華爾街日報:川普擬任祖克柏、黃仁勳、艾里森進 PCAST,打造「美國 AI 國家隊」)

一個新演算法,讓記憶體類股全線崩跌?Google Research 於 25 日正式發布 TurboQuant 壓縮演算法,聲稱能將大型語言模型(LLM)的 KV 快取量化至僅 3 位元,且完全不損失模型準確度、記憶體使用量至少壓縮 6 倍。

訊息傳出後,記憶體巨頭美光(Micron)25 日盤中一度大跌 6.1%,終場收 382.09 美元,創三週來收盤新低。另一方面 Sandisk 跌3.5%、希捷跌 2.59%、威騰電子跌 1.63%,記憶體族群全面潰敗。

亞洲市場今日同步承壓,三星電子開盤重挫 3.6%,SK海力士跌 4.5%。投資人的邏輯直截了當:若 AI 模型不再需要那麼多記憶體,近期靠元件短缺撐起的強大定價權,恐怕將就此動搖。

TurboQuant 技術解析:兩階段消除誤差,速度快8倍

KV快取(Key-Value Cache)是 LLM 能「記住」已處理資料的核心機制,儲存了先前運算過的注意力資料,讓模型在生成每個 token 時不需重複計算。但隨著上下文視窗持續擴大,KV 快取已成為記憶體的重大瓶頸。

TurboQuant 針對的正是這個痛點。Google 指出,傳統向量量化方法在記憶體中會產生每個數值約 1 到 2 位元的額外開銷,而 TurboQuant 透過兩階段流程徹底消除這項負擔:

第一階段,採用 PolarQuant 方法對資料向量進行旋轉,實現高品質壓縮

第二階段,再以 Quantized Johnson-Lindenstrauss 演算法消除殘餘誤差

在輝達 H100 GPU 的基準測試中,4 位元的 TurboQuant 在計算注意力度量值時,效能較未量化的 32 位元鍵提升 8 倍,KV 快取記憶體佔用壓縮至少 6 倍。

更關鍵的是,這套演算法無需任何訓練或微調,執行時額外開銷極低,適合直接部署於正式推論環境與大規模向量搜尋系統。官方表示相關論文將於 4 月「ICLR 2026」大會正式發表。

傑文斯悖論:記憶體需求反而可能更多?

不過,並非所有人都認同「記憶體末日」的敘事。

部分分析師搬出了傑文斯悖論:當技術進步降低資源使用成本,資源反而因為更容易取得而推升整體需求。支持者認為,TurboQuant 若真能大幅降低 AI 推論門檻,將加速 AI 模型普及化,最終反而帶動更大規模的記憶體需求,而非削減。

Lynx Equity Strategies 分析師在報告中更直接指出:「Google 所詳述的方法,在未來 3 到 5 年內幾乎不會減少對記憶體和快閃記憶體的需求,因為供給依然極度受限。」因而該機構維持美光 700 美元目標價。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Opmerking
0/400
Geen opmerkingen