大模型推理面临"内存墙"挑战,存储层级断层问题显现;当前数据中心在大模型推理场景中需要处理极高的数据吞吐量。消费级固态硬盘已快速迭代,PCIe 5.0产品速度达15GB/s,服务器级PCIe 6.0提升至28GB/s,但在高并发、低延迟、持续大带宽的推理任务中仍显不足。相比之下,HBM凭借高带宽成为主流加速器的关键内存,但容量有限且成本较高。随着模型规模和上下文长度增加,当HBM无法容纳全部参数和中间数据时,系统不得不在HBM与系统内存或SSD间频繁交换数据,导致延迟波动和吞吐量下降,形成推理效率的瓶颈。
技术创新是对产业需求的系统性回应。HBF标准的出现既是技术发展的结果,也是AI产业发展的需求。其能否重塑存储架构还需市场验证,但在算力竞争日益激烈的背景下,任何能突破性能瓶颈的技术方案都将推动产业发展。这也再次证明面对复杂技术挑战时,跨企业协作和标准化建设的重要性。