全部版块 我的主页
论坛 数据科学与人工智能 人工智能
48 0
2025-11-20

Kosmos: 自主发现的AI科学家

摘要

本文介绍了Kosmos,这是一个由Future House开发的AI科学家系统,能够自主进行数据驱动的科学发现。该系统能在12小时内完成数据分析、文献检索和假设生成的循环,平均执行42,000行代码并阅读1,500篇论文,相当于6个月的人类专家研究工作量。

原文40页PDF - https://t.zsxq.com/jOyuf

引言:科学发现的新纪元

随着人工智能的迅速发展,科学研究正经历着前所未有的变化。数据驱动的科学发现涉及文献检索、假设生成和数据分析的反复循环。尽管大型语言模型(LLM)代理在编程和跨学科推理方面表现出色,但现有系统在连贯性和深度上仍有不足。

Edison Scientific团队开发的Kosmos系统,标志着AI科学家领域的重大进展。该系统不仅能够自主进行科学发现,而且能够在长达12小时的运行中保持连贯性,执行数百个代理rollouts,并生成可追溯的科学报告。

更多资源

Kosmos系统架构与核心创新

结构化世界模型:信息整合的关键

Kosmos的核心创新在于使用结构化世界模型来管理大量并行运行的代理输出。系统由研究目标和数据集启动,通过大型语言模型(LLM)、数据分析代理、文献检索代理和世界模型执行迭代发现循环。

系统工作流程:

  • 输入阶段:科学家提供初始数据集和广泛的研究目标。
  • 处理阶段:Kosmos世界模型协调数据分析和文献检索代理识别关键发现。
  • 输出阶段:每个发现都以科学报告的形式呈现。

Kosmos工作流程图

性能表现:超越人类专家的效率

Kosmos在性能方面取得了显著成果。在平均运行中,系统能够:

  • 执行42,000行代码(跨166个数据分析代理rollouts)
  • 阅读1,500篇完整的科学论文(跨36个文献综述代理rollouts)
  • 相比Robin系统,代码生成能力提升9.8倍

代码行数和论文阅读统计图

准确性验证:专家评估结果

为了评估Kosmos报告的整体准确性,研究团队从三个代表性报告中提取了102个陈述,并邀请专家科学家评估者对每个陈述的准确性进行分类。结果显示:

  • 总体准确率:79.4%
  • 数据分析陈述:85.5%可重现
  • 文献综述陈述:82.1%得到一次文献验证
  • 综合陈述:57.9%准确

Kosmos准确性评估图

时间效率分析:AI与人类专家的对比

通过统计Kosmos运行中包含的数据分析和论文数量,并估算人类研究者完成相同任务所需的时间,研究团队发现每次Kosmos运行约执行4.1个专家月的研究工作(n=6,σ=0.85)。

与领先学术团队的合作评估显示,20周期Kosmos运行的发现需要他们平均6.14个月的研究时间才能完成(n=7,σ=2.49)。更重要的是,专家等效研究时间随Kosmos运行时间成比例增长,从第5周期到第20周期大约翻倍。

专家等效时间预测图

七大科学发现:跨领域突破

Kosmos在多个科学领域取得了重要发现,这些发现可以分为以下几类:

  • 两项重现未发表或在相关语言模型截止日期后发表的现有发现
  • 一项使用独立推理重现已发表但Kosmos运行时未访问的发现
  • 两项为现有发现建立额外新支持的研究
  • 一项独立开发新分析方法的研究
  • 一项此前未被人类研究者识别的新颖临床相关发现

发现一:低温条件下脑部核苷酸代谢的主导途径

Kosmos成功重现了神经保护代谢组学中的一项未发表发现。通过分析小鼠大脑的无靶向代谢组学数据,系统识别出低温和常温条件下差异显著的代谢物中嘧啶和嘌呤挽救途径的富集。

这一发现不仅验证了Kosmos在代谢组学领域的应用能力,也展示了其在重现复杂生物学发现方面的潜力。

神经保护代谢组学发现图

发现七:内嗅皮层神经元老化的新机制

在最具临床意义的发现中,Kosmos识别出了一种新颖的神经元老化机制。系统发现ATP10A基因(编码磷脂酰丝氨酸翻转酶)在内嗅皮层-齿状回投射神经元中的年龄相关下调,这可能使这些神经元在阿尔茨海默病的早期阶段更容易受到损伤。

关键发现:

  • ATP10A及其他翻转酶家族成员的广泛下调
  • 磷脂酰丝氨酸(PS)在神经元膜外表面的增加暴露
  • 小胶质细胞吞噬途径基因的上调
  • 为阿尔茨海默病中内嗅皮层到海马连接的早期丢失提供了机制解释

翻转酶下调和吞噬信号上调图

这一成果已通过两种独立的方法得以验证:一是在其他研究小组生成的独立数据集中进行了测试;二是通过多次运行数据分析工具来评估计算的可重复性。此外,在分析外部单细胞RNA测序数据集时,也发现了相同的现象,这些数据集涉及人类阿尔茨海默病的病例。

技术特点与创新

上下文管理策略

Kosmos采用了一种结构化的世界模型,用于在各代理间共享和整合信息,从而使得系统能够连贯地执行指定目标长达200个代理滚动测试以上。此策略让Kosmos能同时探索多种不同的研究路径,运行时间是当前系统的8倍之久。

可追溯性保障

在Kosmos生成的每份报告中,无论是陈述还是图表,均会引用文献搜索工具发现的出版物或数据分析工具生成的Jupyter笔记本。这样做确保了Kosmos的推论过程完全透明,方便第三方独立验证或复现其发现。

跨学科的应用潜力

得益于Kosmos所使用的动态更新世界模型,它能够部署两个通用科学代理,在任何学科中运作。该团队已在代谢组学、材料科学、连接组学、统计遗传学、蛋白质组学及转录组学等多个领域证实了系统的实用性。

人类科学家的角色

Kosmos的设计初衷并非替代人类科学家,而是为了增强并加速他们的工作进程。该流程始于人类生成和整理的高质量数据集,最终由人类对结果进行解读和批判性评价。

人类监督的关键性:

  • 输入数据的质量和格式对最终发现有着决定性的影响
  • 独立评审员指出Kosmos倾向于作出过于绝对的断言
  • 系统偶尔可能会偏离既定的研究方向
  • 需要人类专家对结果进行评估和解析

未来的发展方向与面临的挑战

扩展性能的优势

专家们表示,20轮Kosmos运行中产生的有价值洞见显示出了中等到较高的推理深度和中等到极高的新颖性,这表明计算投入与科学产出之间存在着积极的扩展关系。

技术限制

尽管Kosmos在多方面实现了突破,但它依然面临一些限制因素:

  • 高度依赖于输入数据的质量
  • 在解读陈述时的准确性相对较低
  • 需要持续的人力监督和验证

应用前景

Kosmos的成功为人工智能在科学研究领域的应用开辟了新的可能。这套系统不仅能重现已知的发现,还能补充和完善现有的知识体系,更重要的是,它能带来全新的发现。随着技术的不断进步,我们可以期待Kosmos在更广泛的科学领域中扮演更加重要的角色。

数据的可用性和再现性

研究团队极其重视研究的再现性。所有的Kosmos报告均可在Edison平台以PDF形式获得。支持数据分析和文献引用的Jupyter笔记本可通过报告中的链接找到。用于数据分析和图形生成的所有脚本均公开发布于GitHub上。

[补充表1:Kosmos报告链接表]

总结

Kosmos标志着AI科学家发展中的一大步。作为首个能在单一运行中执行数月任务的AI科学家系统,它结合了闭环文献检索、数据分析和世界模型更新,自主地在多个领域内开展研究。

通过运用结构化的世界模型来管理代理间的上下文,Kosmos能够部署成百上千的代理滚动测试,编写数万行代码,并阅读成千上万篇论文以实现单一研究目标。Kosmos执行大规模、无偏见的高维数据集探索,成功地重现了已知的工作,补充和综合了现有知识,并产生了新的发现。

更为关键的是,Kosmos报告中的每一项陈述均有代码或主要文献的支持,这使得整个发现过程变得透明,促进了任何发现的独立验证或复现。这对于科学研究的未来发展具有指导意义,同时也为AI在科学发现中的应用提供了宝贵的经验。

欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新的产学研相关“知识图谱+大模型”论文、政府企业落地案例、避坑指南、电子书、文章等,重点关注医疗护理、医药大健康、工业能源制造等领域,同时跟踪AI4S科学研究的最新进展,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等公司的动态。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群