问题——当前大模型在产业应用中面临多重挑战。随着推理、代码生成和复杂任务需求不断增加,模型训练成本高、规模扩展稳定性不足、吞吐效率受限等问题日益凸显。特别是在参数规模和训练数据持续增长的背景下,如何在保证质量的同时提升训练效率和工程可控性,已成为行业竞争的关键。 原因——模型能力提升需要更长的预训练周期和更复杂的对齐流程,涉及监督微调、偏好优化和强化学习等多个环节,训练链路长、参数更新敏感。传统优化方法在大规模训练中容易出现收敛波动和不稳定现象,影响迭代速度和资源利用率。同时,推理和编程任务对模型的逻辑表达提出更高要求,单纯扩大规模难以获得持续收益,需要在训练框架和优化策略上寻求突破。 影响——JoyAI-LLM-Flash采用48B总参数、3B激活参数的设计,在约20万亿文本Token上预训练,针对知识理解、推理、编程和智能体能力进行优化。其核心创新是FiberPO训练框架,将纤维丛理论引入强化学习过程,结合Muon优化器,在SFT、DPO和RL等阶段继续优化,提高训练稳定性和效率。此外,模型采用稠密多Token预测策略,缓解规模扩展带来的不稳定问题,吞吐表现相比非MTP版本提升约1.3至1.7倍。这类系统性工程优化有助于在相同算力约束下提升训练产出效率,为企业在迭代周期、成本控制和能力交付上争取优势。 对策——推动大模型高质量发展需要形成"算力—数据—算法—工程"的协同闭环。一是扩大高质量数据供给,加强领域数据治理,提升预训练和对齐阶段的数据可用性和安全性;二是持续创新训练框架、优化器和并行策略,增强大规模训练的可复现性和稳定性;三是围绕推理、编程和智能体等关键方向,建立可评测、可对标的能力指标体系,避免盲目堆砌参数;四是完善开源生态的合规和风险管理机制,推动技术共享与产业应用的良性循环。 前景——随着大模型从"能用"向"好用、可控、可持续迭代"演进,训练方法和工程体系的重要性将持续上升。在推理和编程等高价值场景中,未来竞争不仅取决于参数规模和数据体量,更取决于训练稳定性、效率和任务泛化能力。业界预计,围绕优化器、对齐算法和多Token预测等方向的创新,将推动模型训练从经验驱动走向体系化和工程化,在软件研发、智能客服、知识工作辅助和流程自动化等领域释放更大潜力。
技术开源与架构创新正重塑人工智能产业格局。京东此次发布的JoyAI-LLM-Flash模型展示了国内企业在基础模型研发上的技术实力,也推动了开放协作的产业生态建设。在全球人工智能竞争加剧的当下,如何平衡模型性能与应用成本、让先进技术惠及更广泛群体,这些探索为行业发展提供了有益参考。随着更多创新成果的涌现和开源力量的汇聚,人工智能技术必将在服务实体经济和改善民生上发挥更大作用。