北航的case 框架有一个绝活,能给大模型注入新知识,编辑一千次都不会忘。现在llm 发展得飞快,

北航的CASE框架有一个绝活,能给大模型注入新知识,编辑一千次都不会忘。现在LLM发展得飞快,给它加点新料这事越来越难办了,特别是碰上星巴克换了新CEO或者有新科研成果出来,模型很容易出岔子。为了给这事找个解决方案,北京航空航天大学的CASE团队搞出了这个CASE框架,想让大模型实现那种“终身都能改”的本事。 这个框架的核心是两条路:一个叫“冲突量化”,另一个叫“关键神经元调优”。这两条路能帮模型在更新的时候不忘旧东西,还能跑得更快。具体来说,CASE是把每次编辑都算个分,冲突的知识分在一边存,能兼容的一起用。以前的办法要么是为了留着预训练的老知识瞎加参数,要么是对所有知识一视同仁地改,结果要么浪费算力要么冲突打架。 团队发现以前的办法没咋考虑知识之间的冲突程度,没法准确定位该改哪儿。CASE里的CAA模块就给新知识和老知识来个冲突打分。如果两者合得来,就在同一个空间里存;不合则新开一个空间存。这样就不怕知识变得零碎了,模型推理也能更高效。 还有个KNT策略是盯着“关键神经元”。它只去改对现在这个知识最敏感的地方,别的乱七八糟的参数不管。团队用了Fisher信息矩阵来找那些影响最大的神经元来调优。这种办法不光参数调整简单了点,还保住了历史知识的稳定。 实验结果看出来了厉害:用CASE框架连续改LLM一千次以后,准确率比之前最好的办法高了将近10%,多出来的参数也才不到1MB。这效果太猛了,特别适合在金融、医疗这些需要不断更新的地方用。 以后CASE团队还想把这套技术扩展到多模态或者非结构化数据上去。总之这框架给大模型更新知识指了条明路,咱们就等着看它以后在更多领域怎么大展身手吧。