英伟达黄仁勋:用sram换掉hbm

最近行业里都在热烈讨论AI芯片到底该用哪种存储技术,英伟达的老大黄仁勋专门讲了为啥他们坚持要走高带宽内存这条路。现在AI技术渗透得越来越深,算的东西越来越多,芯片和它带的存储系统要是跟不上,就会挡住技术普及和产业升级的路。大家讨论的重点是速度快但存不下多少东西的SRAM,还有带宽大、容量足的HBM。 黄仁勋在一次活动里直接剖析了用SRAM换掉HBM这个想法。他不是光看单个部件,而是从怎么建大规模、用得久的AI基础设施这个大角度去想的。他先夸了SRAM访问速度快,在那种对延迟很敏感的计算里表现特别好,确实是个有潜力的备选方案。 不过话锋一转,他说了SRAM面临的硬伤:容量不够用。现在AI模型越来越大,尤其是大语言模型这些,参数和上下文长度都在暴涨。SRAM因为物理结构的限制,密度低成本又高。现在典型的SRAM方案能存下的模型,大概只有HBM系统能支持的百分之一。要是数据量超过了这个限度,就得频繁去外面找数据,速度优势就没了。 他还分析了AI工作负载本身的特点:千变万化还很难预测。模型架构还在变来变去,有的要大块显存存参数,有的要高带宽处理数据流,还有的靠NVLink这种GPU间的连接速度。同一个模型在不同阶段甚至升级后需求也可能变。“要是硬件设计太死心眼只针对某一种特别的工作负载优化,”黄仁勋说,“等到任务变了,这些昂贵的硬件利用率就会骤降。” 在共享数据中心环境里,硬件得灵活才行。那种只在5%到10%的任务上表现最好却没法处理剩下90%通用任务的方案,从长远看不划算。所以英伟达的高端平台还是用HBM技术。 这种技术通过3D堆叠封装,在一小块空间里塞下了很多东西,带宽又高功耗还低。虽然单个成本比SRAM贵点,“但HBM提供了很大的可选性价值。”它能适应算法不断升级的情况,“让客户的加速卡在部署几周甚至几个月的时间里都能持续用得好。” 有人问开放权重的模型多了会不会不用英伟达的高端硬件了。黄仁勋觉得模型开放了不代表硬件要求降低了。相反,开放模型加了更复杂的功能和更长的上下文之后,对内存容量和带宽的需求反而更大了。 英伟达花大价钱搞这种集成HBM的复杂系统,就是为了建一个足够宽泛、能适应变化的平台,“既不让客户被锁在狭窄的性能场景里”,也能挡住AI模型快速迭代带来的冲击。 他这番话把短期成本和长期效益、专用优化和通用弹性的关系讲得很清楚。现在AI发展这么快,选哪种存储技术不光是比谁快或者便宜点,“还得看趋势、场景还有全生命周期的价值”。 英伟达坚持HBM路线,“反映了他们对AI工作负载本质的理解和对算力基座长期稳健发展的承诺”。这场关于SRAM和HBM的讨论也说明大家不再只拼最高算力了,“而是要往兼顾效率、灵活性和总成本的系统化、深层次竞争发展。” 以后不管是搞技术创新还是控制成本、建生态系统,“都是所有AI硬件参与者必须面对的难题。”