云天励飞这个公司把眼光放到了2028年,准备给国内大模型的应用铺平道路。这家位于深圳的公司最近搞了个战略前瞻会,说了说自己要在云端的推理芯片上搞个大动作。他们董事长陈宁博士就讲得很直白:人工智能这东西,训练和推理那是两码事。训练的时候大家都在拼命堆算力、拼精度,对钱不敏感;到了推理阶段,就得直面海量实际应用了,这时候比拼的就是单位计算成本、能效比还有响应速度,说白了就是个经济学的问题。 所以云天励飞就定下了个“训练追赶、推理超车”的路子,想在国际巨头堆训练算力的同时,利用国内市场的优势在推理这块儿把成本拉下来。陈宁博士放话了,他们的目标是把处理百万Tokens的推理成本给压到原来的一百分之一,最好能搞到“百万Tokens一分钱”甚至“零点一分钱”。这要是真能成了,像搜索、写文章、做客服这些场景的大模型就能大规模商用了,AI就能从那种光用来做展示的东西变成实实在在干活的工具了。 为了实现这一目标,公司首席技术官李爱军把具体的技术路线给摊开了看。他们这套架构叫“PD分离”,专门针对大模型推理里的两个阶段:一个是Prefill预填充阶段,这个阶段计算量大、需要高并行算力;另一个是Decode解码阶段,这个阶段访存量大、需要高带宽和低延迟。针对这两个特点,他们要搞两种芯片,一种叫P芯片管Prefill,一种叫D芯片管Decode。这两个家伙在集群里可以灵活组合成超节点,根据不同的模型和负载需求来调整效率。 按照公布的路线图看,前两年他们要分别把P芯片和D芯片弄出来;等到了2028年,他们打算把第二代D芯片推出来,让响应时间跑到毫秒级。这种设计水平直接对标国际同行最新的架构,野心不小。 支撑这一切的是云天励飞自己搞的GPNPU通用神经网络处理器架构。李爱军说这玩意儿不光是块芯片这么简单,而是一套硬件、软件加生态的大系统。它有四个绝活:一是兼容主流编程环境比如CUDA,让开发者用起来不费劲;二是搞了个高能效的NPU核心来省油;三是引入了三维存储技术来突破内存带宽的瓶颈;四是用了一种“算力积木”的设计理念来灵活适配不同的场景和成本要求。 有业内人士分析觉得云天励飞这招挺务实的:不去跟国际巨头在训练算力上死磕所谓的“军备竞赛”,而是把心思放在推理阶段的性价比上。充分利用国内丰富的应用场景、现成的数字基础设施和活跃的开源生态来切入市场,这路子走得稳当。 把技术攻关和明确的成本控制、商业目标绑在一起搞,说明他们想把技术变成真金白银。这次发布的大算力芯片战略不光是公司自己的路线图,也给咱们看清楚了中国底层AI硬件发展的新路子。能不能在这条赛道上通过架构创新和成本控制实现“弯道超车”,这可是关乎企业生死存亡的大事。至于那个宏伟的成本削减目标能不能真兑现,三代芯片能不能变成过硬的产品竞争力,还得看时间和市场怎么说。不过这种聚焦关键问题、致力于技术普惠的探索精神肯定会给千行百业注入新动力。