
3月26日,各人存储芯片市集因一篇学术论文而引发惊愕。 存储芯片公司股价全线承压。3月26日A股收盘,恒烁股份跌超6%,兆易改进、佰维存储、朗科科技跌超5%,江波龙、北京君正等个股也纷纷跟跌。3月26日好意思股开盘,存储芯片板块普跌,遗弃北京时期22点30分,闪迪跌超6%,好意思光科技与西部数据跌超4%,希捷科技跌超3%。 这场波动的导火索来自一篇由谷歌连络院行将在国外学习表征会议(ICLR 2026)上崇拜亮相的学术论文。谷歌推出的新式AI内存压缩本领“TurboQuant”,声称可将谣言语

3月26日,各人存储芯片市集因一篇学术论文而引发惊愕。
存储芯片公司股价全线承压。3月26日A股收盘,恒烁股份跌超6%,兆易改进、佰维存储、朗科科技跌超5%,江波龙、北京君正等个股也纷纷跟跌。3月26日好意思股开盘,存储芯片板块普跌,遗弃北京时期22点30分,闪迪跌超6%,好意思光科技与西部数据跌超4%,希捷科技跌超3%。
这场波动的导火索来自一篇由谷歌连络院行将在国外学习表征会议(ICLR 2026)上崇拜亮相的学术论文。谷歌推出的新式AI内存压缩本领“TurboQuant”,声称可将谣言语模子(LLM)推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上完结最高8倍的性能加快。
当今,成本市集将其解读为对存储硬件需求的致命一击,但在惊愕性抛售背后,始终真正影响又会怎么?
“Pied Piper”走进本质
TurboQuant究竟处分了什么问题?
刻下大模子入手时的中枢瓶颈之一在于“键值缓存”(KV Cache)。浅薄来说,当用户与AI对话时,模子需要记取之前聊过的内容(高下文),这部分临时存储的数据便是KV Cache。跟着大模子高下文窗口从几千Token延长至百万致使千万级别,KV Cache对内存的花费呈指数级增长,成为制约推理成本的环节。
记者查阅该论文,TurboQuant骨子上是一种极致的量化压缩算法。传统量化次序需要在压缩精度和额外存储支出之间协调,而谷歌团队通过两项改进PolarQuant(极坐标量化)和 QJL(量化JL变换)完结了在“零耗费”的前提下将KV Cache压缩至3-bit精度。
有业内东谈主士将这一突破比作HBO经典好意思剧《硅谷》中那家凭借“无损压缩算法”颠覆行业的虚拟创业公司Pied Piper。Cloudflare首席扩充官更是将其称为谷歌的“DeepSeek时刻”,以为其有望像DeepSeek一样,通过极致着力大幅拉低AI的入手成本。

“要求反射”式抛售
对于始终千里浸在“算力即权利”“存力即国力”叙事中的成本市集而言,这项本领的问世无疑轰动了明锐的神经。
若是单张显卡的内存浑沌着力被成倍放大,各大云劳动商和企业客户当年对DRAM和HBM(高带宽内存)的物理采购量是否会断崖式下滑?这种逻辑推导径直导致了资金的避险动作。
这并非是存储芯片股的初次本领面惊愕。2025年头,DeepSeek发布低历练就本模子时,曾经引发市集对算力硬件需求的质疑。TurboQuant被视为归并逻辑的延续。“以软代硬”正在从故事变为本质。
但在科技圈的狂热与二级市集的抛售之间,华尔街投行发达出一定的放心。
摩根士丹利在最新研报中明确暗意,市集对此存在误读。该本领仅作用于推理阶段的键值缓存,并不影响模子权重所占用的高带宽内存(HBM),也与AI历练任务无关。
分析师强调,所谓的“6倍压缩”也不是存储总需求的减少,而是通过着力普及加多单GPU的浑沌量。这意味着,疏导硬件要求下,不错扶植4倍至8倍更长的高下文,或在不触发内存溢出的前提下显赫普及批处理边界。
Lynx Equity Strategies的分析师更进一步暗意,媒体报谈存在夸大因素。刻下的推理模子早已平素选择4-bit量化数据,谷歌所谓的“8倍性能普及”是建树在与老旧的32位模子对比的基础之上。
此外,TurboQuant当下的考据范围相对有限。快念念慢想连络院院长、特邀评述员田丰向记者暗意,该本领当今仅在Gemma、Mistral等开源模子上考据,Gemini等谷歌中枢模子的适配成果尚未公开,本领普适性仍需不雅察。
值得郑重的是,压缩KV cache、进行长高下文优化也并不是全新的本领念念路。早在2025年4月,谷歌就曾公设备表过TurboQuant的关连论文。

在访佛本领念念路上,国内也有关连布局。如月之暗面KimiLinear,在处理长高下文任务时,相较于传统全郑重力模子,KV cache使用可降最多75%;DeepSeek V2建议的MLA次序也可优化KV cache。
杰文斯悖论:着力越高,需求越大?
除了本领细节可能被误读外,还应从经济学视角重估TurboQuant的始终影响。
从供应链视角看,短期内各原厂产能满载。当下,劳动器内存需求执续增长,2026年劳动器DRAM需求瞻望增长39%,HBM需求年增58%,TurboQuant的优化成果或将被行业增长波澜褪色。
“这会是杰文斯悖论的又一个例证。”无穷星辰董事长方海声告诉上证报记者,本领着力的普实时时会裁汰使用成本,从而引发出更弘大的总需求。蒸汽机着力的提高莫得减少煤炭花费,反而激动了煤炭需求的爆发式增长,这一轨则在AI期间相似适用。
尽管TurboQuant直击AI系统的内存成本弧线,但历史申饬标明,压缩算法的存在从未从根蒂上改动硬件采购的全体边界。通过大幅裁汰单次查询的劳动成本,这类本领能让底本只可在繁盛云霄集群上入手的模子迁徙至土产货,灵验裁汰AI边界化部署的门槛,从而激活更多因成本受限而无法落地的讹诈场景。
“推理成本要点将从GPU转向存储优化,激动TCO(总领有成本)显赫下落。这也会使中小厂商可进一步参与AI讹诈改进,冲破大厂本领壁垒,激动AI民主化加快。”田丰暗意。
一篇尚未崇拜发表的论文,引发各人存储芯片板块的剧烈震荡,这本人就足以评释刻下AI基础法子投资逻辑的脆弱与明锐。
遗弃发稿时欧洲杯体育,谷歌尚未公布TurboQuant在Gemini等自研模子中的具体部署时期表。对于该本领的探讨,将在4月的ICLR 2026会议上接续发酵。本报记者将执续温雅此事进展。
东财图解·加点干货