英伟达黄仁勋：用sram换掉hbm

最近行业里都在热烈讨论AI芯片到底该用哪种存储技术，英伟达的老大黄仁勋专门讲了为啥他们坚持要走高带宽内存这条路。现在AI技术渗透得越来越深，算的东西越来越多，芯片和它带的存储系统要是跟不上，就会挡住技术普及和产业升级的路。大家讨论的重点是速度快但存不下多少东西的SRAM，还有带宽大、容量足的HBM。黄仁勋在一次活动里直接剖析了用SRAM换掉HBM这个想法。他不是光看单个部件，而是从怎么建大规模、用得久的AI基础设施这个大角度去想的。他先夸了SRAM访问速度快，在那种对延迟很敏感的计算里表现特别好，确实是个有潜力的备选方案。不过话锋一转，他说了SRAM面临的硬伤：容量不够用。现在AI模型越来越大，尤其是大语言模型这些，参数和上下文长度都在暴涨。SRAM因为物理结构的限制，密度低成本又高。现在典型的SRAM方案能存下的模型，大概只有HBM系统能支持的百分之一。要是数据量超过了这个限度，就得频繁去外面找数据，速度优势就没了。他还分析了AI工作负载本身的特点：千变万化还很难预测。模型架构还在变来变去，有的要大块显存存参数，有的要高带宽处理数据流，还有的靠NVLink这种GPU间的连接速度。同一个模型在不同阶段甚至升级后需求也可能变。“要是硬件设计太死心眼只针对某一种特别的工作负载优化，”黄仁勋说，“等到任务变了，这些昂贵的硬件利用率就会骤降。” 在共享数据中心环境里，硬件得灵活才行。那种只在5%到10%的任务上表现最好却没法处理剩下90%通用任务的方案，从长远看不划算。所以英伟达的高端平台还是用HBM技术。这种技术通过3D堆叠封装，在一小块空间里塞下了很多东西，带宽又高功耗还低。虽然单个成本比SRAM贵点，“但HBM提供了很大的可选性价值。”它能适应算法不断升级的情况，“让客户的加速卡在部署几周甚至几个月的时间里都能持续用得好。” 有人问开放权重的模型多了会不会不用英伟达的高端硬件了。黄仁勋觉得模型开放了不代表硬件要求降低了。相反，开放模型加了更复杂的功能和更长的上下文之后，对内存容量和带宽的需求反而更大了。英伟达花大价钱搞这种集成HBM的复杂系统，就是为了建一个足够宽泛、能适应变化的平台，“既不让客户被锁在狭窄的性能场景里”，也能挡住AI模型快速迭代带来的冲击。他这番话把短期成本和长期效益、专用优化和通用弹性的关系讲得很清楚。现在AI发展这么快，选哪种存储技术不光是比谁快或者便宜点，“还得看趋势、场景还有全生命周期的价值”。英伟达坚持HBM路线，“反映了他们对AI工作负载本质的理解和对算力基座长期稳健发展的承诺”。这场关于SRAM和HBM的讨论也说明大家不再只拼最高算力了，“而是要往兼顾效率、灵活性和总成本的系统化、深层次竞争发展。” 以后不管是搞技术创新还是控制成本、建生态系统，“都是所有AI硬件参与者必须面对的难题。”