阿里的未来生活实验室又搞出了个新花样，专家分化学习这一招真能把moe 模型里的那些“专家”

阿里的未来生活实验室又搞出了个新花样，专家分化学习这一招真能把MoE模型里的那些“专家”逼得更专精。现在大模型技术发展得飞快，MoE这种混合专家模型早就成了顶梁柱，像GPT-5、DeepSeek-V3这些厉害的家伙背后，全是靠着它撑着场面。可问题来了，在预训练时这些本该各有所长的“专家”模块，经常变得没啥两样，参数全浪费了，想扩展也难。为了把这事搞定，阿里巴巴的一帮人想出了个妙招——专门搞了个专家分化学习策略。他们琢磨透了，原来信息少才是导致同质化的罪魁祸首。于是就利用数据里天然的领域标签，弄出了个辅助损失函数。这函数就是要让不同领域的数据在路由统计上显出差别，逼着“专家”们各练各的绝活。传统那种负载均衡的损失函数虽然能让大家忙起来，但就跟只管员工是不是忙着干活、不管干的啥一样，容易浪费资源。而新策略的核心在于那个LED损失函数。研究发现总多样性其实能分成域间和域内两部分。以前大家瞎提升总多样性，结果模型就去搞域内的“充数”，新的LED函数则专门盯着域间搞事情。具体操作分三步：先找出不同领域的数据特征，接着用JS散度算算它们之间有啥区别，最后就是优化算法把这些差异给最大化了。这就好比把不同领域的“专家”往模型空间的边上推，让它们都守着自己的一亩三分地干活。这种明确的监督信号让模型学会了最懂人话的路由策略。团队拿3类和49类两种标签做对比发现，标签分得越细（49类），模型表现就越好。大家给这招起了个好听的名字叫LED。为了验证效果，他们拿30亿、80亿还有150亿这几种规模的模型练了一通。结果显示用了新方法的模型在语言建模损失上一直比老方法强。在MMLU、C-eval这7个大考里也都赢了老基准。特别是在150亿参数这种大家伙身上效果最明显，平均分直接涨了1个百分点以上。通常要达到这种效果得在几百亿tokens的数据上练好久才行。可视化图也能看明白道理。老的MoE模型在三角单纯形图里的激活点都挤在中间说明大家混在一起；用了新策略的就往三个顶点跑了。这证明不同数据现在能激活完全不一样的模块。最关键的是这招还很省事儿。LED函数只要处理路由器输出的低维向量运算就行，一点也不拖后腿。实验数据显示训练速度跟以前一样快也不用花额外的推理钱。这让它在大规模应用上变得很靠谱。