前两天自然杂志出了篇新文章,说现在出了个开源的语言模型叫OpenScholar,专门用来做文献综述,能把以前那些商用大模型给比下去。就拿实验数据来说吧,像GPT4o这种很火的AI,在处理资料的时候至少有78%到90%的时间会犯“引文幻觉”,也就是乱编出处。但OpenScholar的表现就跟人类专家差不多准了。这事儿虽然还得再打磨打磨,但肯定能帮咱们研究人员分担点写综述的重担。 为啥科研界这么看重这个呢?因为文献综述不仅是搞科研的基本功,还是找方向、做决策的重要依据。现在论文出得太多太快,大家根本看不过来。以前咱们总指望那些通用大模型来帮忙筛选,但这些工具特别爱出错,要么给错了作者归属,要么把不存在的论文硬凑上去(也就是所谓的引文幻觉)。为了搞出既全面又透明的文献综述,华盛顿大学的团队就把精力都放在了这上面。 他们特意把这个模型做得很针对科研任务,叫做检索增强型的语言模型。其他系统也用过类似的框架,但他们不一样的地方在于给模型喂了个足足有4500万篇最新科研论文的专用数据库,还加了个自我评估的机制。团队还搞了个叫ScholarQABench的基准测试工具来检验效果。一对比发现,OpenScholar比GPT4o高出了6.1%,比PaperQA2高出了5.5%。而且有50%到70%的情况下,它给出的答案比专家手写的还要好用。 虽然这已经是很大的进步了,但团队也说了这系统还不够完美,完全自动化是没戏的。他们把ScholarQABench和OpenScholar都给开源了,就是想让大家一起接着改进。你想啊,科研人员每天就像在大海里捞珍珠一样找论文,但现在海水涨得太高了,有用的和没用的都浮上来了。以前咱们用的是通用的“捞网”(比如GPT),但网眼太大了,老是捞到“塑料珠子”(假引用),这就得花好长时间去挑错。现在的OpenScholar就像专门为这片海设计的网子一样,不求万能只求可靠。 所有人都能参与改进这个工具让它更准。这样一来就能把大家从繁琐易错的苦海里解放一部分出来,让咱们把精力都花在真正的思考和发现上。这对推动科研进步可是太重要了。