在228小时里,系统给我们提供了100篇论文。这段时间里,它一口气没停地工作,从提出假设到写论文,全都自己搞定。有244个研究假设和100篇短论文就这样产生了,平均下来每两小时就有一篇新论文诞生。FARS系统把整个研究过程分成了四部分:找资料和想假设的是构思模块,设计实验方案的是规划模块,写代码和运行实验的是实验模块,最后还有个写作模块专门负责写论文。这种模块化的设计让系统能同时做很多项目,效率特别高。Analemma公司给它配了160张显卡组成的超级计算集群,让它能调用各种大模型来支持工作。运行了大约9.5天之后,这个系统总共消耗了114亿Token,算下来成本大概是75万元人民币。换算一下,每篇论文平均要花2小时17分钟才能写好,成本差不多是1000美元。 跟传统学术界相比,FARS的速度简直就是光速。一般学术界写一篇论文要花上3到6个月呢!不过高速度也意味着高消耗,FARS用的Token数量比普通任务多了不少。为了评估这些论文的质量,团队找来了斯坦福大学开发的AI审稿系统Agentic Reviewer来打分。根据ICLR的标准给100篇论文打分后发现,平均分是5.05分左右。很多论文都在5分附近徘徊,也有少量突破了6分。ICLR 2026年人类投稿的平均分是4.21分,被接收的论文平均分是5.39分。这说明FARS写出来的东西已经比一般投稿好了不少,不过离顶尖会议的录取标准还有点差距。 具体看看例子就更明白了。在FA0042这篇论文里,FARS解决了文本嵌入领域的一个难题:双向注意力质量好但影响效率的问题。它想出了个办法:训练的时候用双向模型提升质量,推理的时候用因果模型提高效率,并且通过过渡技术避免了数据分布变化。结果发现这种方法在流式推理延迟和长文档检索上表现特别好。更让人惊讶的是,它还把蚂蚁集团最新发布的GG-SM技术整合进去了,说明它对前沿技术很敏感。 当然也不是所有实验都成功。在FA0121这篇论文里,FARS试图解决DeepSeek Engram架构里的“冷热偏置”问题。它提出了用反事实门控监督来修复门控机制。虽然设计得很严谨,但效果却很一般甚至不如增加训练步数更有用。论文也没回避失败的结果,而是通过诊断实验深入分析了原因。这种实事求是的态度得到了网友的认可。 随着数据公开后大家讨论得热火朝天。很多人不再关注单篇论文好不好看了,而是关注系统能不能一直稳定运行下去——它能不能一直提出假设、做完实验、写出成稿?这意味着AI开始有了做科研流水线的雏形了。 大家认为大型语言模型写论文的能力已经成熟了,主要差距在于工程实现上的细节问题。预计3个月内就能看到完善的自动论文生成流水线了。 这种预期也让人开始反思:当科研能大规模自动化生产时,人类还有什么独特价值?有人觉得决定上限的还是研究者的品味和洞察力;也有人觉得算力应该用来解决真正难的问题而不是批量生产普通会议论文。 不管怎么说吧,FARS的实践证明了端到端自动科研系统已经能稳定运行并且产出有竞争力的成果了。它还能自我纠错和报告负面结果呢!这标志着自动化科研从概念变成了现实应用阶段!虽然现在它在突破性研究、思想深度和算力效率上还有提升空间,“无限心智生产线”的潜力确实不容忽视啊!