阿里的未来生活实验室又搞出了个新花样,专家分化学习这一招真能把MoE模型里的那些“专家”逼得更专精。现在大模型技术发展得飞快,MoE这种混合专家模型早就成了顶梁柱,像GPT-5、DeepSeek-V3这些厉害的家伙背后,全是靠着它撑着场面。可问题来了,在预训练时这些本该各有所长的“专家”模块,经常变得没啥两样,参数全浪费了,想扩展也难。为了把这事搞定,阿里巴巴的一帮人想出了个妙招——专门搞了个专家分化学习策略。 他们琢磨透了,原来信息少才是导致同质化的罪魁祸首。于是就利用数据里天然的领域标签,弄出了个辅助损失函数。这函数就是要让不同领域的数据在路由统计上显出差别,逼着“专家”们各练各的绝活。传统那种负载均衡的损失函数虽然能让大家忙起来,但就跟只管员工是不是忙着干活、不管干的啥一样,容易浪费资源。而新策略的核心在于那个LED损失函数。研究发现总多样性其实能分成域间和域内两部分。以前大家瞎提升总多样性,结果模型就去搞域内的“充数”,新的LED函数则专门盯着域间搞事情。 具体操作分三步:先找出不同领域的数据特征,接着用JS散度算算它们之间有啥区别,最后就是优化算法把这些差异给最大化了。这就好比把不同领域的“专家”往模型空间的边上推,让它们都守着自己的一亩三分地干活。这种明确的监督信号让模型学会了最懂人话的路由策略。 团队拿3类和49类两种标签做对比发现,标签分得越细(49类),模型表现就越好。大家给这招起了个好听的名字叫LED。为了验证效果,他们拿30亿、80亿还有150亿这几种规模的模型练了一通。结果显示用了新方法的模型在语言建模损失上一直比老方法强。 在MMLU、C-eval这7个大考里也都赢了老基准。特别是在150亿参数这种大家伙身上效果最明显,平均分直接涨了1个百分点以上。通常要达到这种效果得在几百亿tokens的数据上练好久才行。 可视化图也能看明白道理。老的MoE模型在三角单纯形图里的激活点都挤在中间说明大家混在一起;用了新策略的就往三个顶点跑了。这证明不同数据现在能激活完全不一样的模块。 最关键的是这招还很省事儿。LED函数只要处理路由器输出的低维向量运算就行,一点也不拖后腿。实验数据显示训练速度跟以前一样快也不用花额外的推理钱。这让它在大规模应用上变得很靠谱。