Google新壓縮演算法「TurboQuant」嚇趴記憶體 引爆類股賣壓
Google發表最新「TurboQuant」壓縮演算法,標榜僅需六分之一的記憶體數量,就能運作大型語言模型(LLM),且性能能提升八倍,導致記憶體需求轉弱疑慮四起,嚇壞市場投資人,進而引爆全球記憶體與存儲類股賣壓。
美股記憶體與存儲類股率先倒地,美光、晟碟25日領頭殺,一度重挫逾5%,收盤均跌超過3%,威騰也收黑,三家公司26日早盤續跌逾2%。
相關恐慌蔓延至亞股,南韓記憶體雙雄三星、SK海力士26日分別大跌4.7%、逾6%;在日本掛牌的鎧俠也下挫超過5.7%。台灣記憶體族26日早盤受南亞科引資四大科技巨頭激勵,普遍開高,南亞科更跳空漲停開出,但盤中漲停打開,尾盤翻黑跌1元收225.5元,群聯、華邦、旺宏、威剛、十銓、晶豪科等人氣股也都收黑。
TurboQuant問世,不少人視為是解決LLM高昂運作成本的重要里程碑,主因其鎖定解決AI系統中的「鍵值快取」(KV Cache)瓶頸而設計,將原本占用大量空間的緩衝記憶體壓縮至3位元(bit)。
但這同步引發市場對這波因AI拉動存儲需求暴增,掀起的記憶體缺貨大漲價退潮疑慮,進一步演變成市場「記憶體股大逃殺」。
有消息指出,TurboQuant震撼業界,主因該演算法採「量化壓縮」,讓原本只有頂級電腦才能跑的AI,進化成手機或一般筆電都能跑出推論成果。這就像原本影片都輸出4K等級,現在換成HD高畫質輸出即可,如此一來LLM所需空間少了75%,運作速度卻快了兩、三倍,對記憶體、GPU的負擔都相對減輕。
Google稱此技術對硬體需求相對友善,在運作時會先關注整組數據的使用狀況,區分重要「絕對不能改」的項目以及次要「大概就可以」的部分,將資源優先放在重要分類,確保推論的精準度,將次要部分省略或精簡。
Google Research在官方部落格與相關學術論文指出,TurboQuant在將資料壓縮成3.5位元(比原本細緻度縮減75%以上)的情況下,依然能達到 「零精度損失(Zero Accuracy Loss)」。且因為TurboQuant有效挪出記憶空間,AI可以「記住」更長的上下對話內容而不容易出錯。
