Auto Research：多智能体自主科学发现

Jingxuan Kang · 2026 年 3 月

Auto Research — 多智能体自主科学发现

1 / 22

出发点

"同样的模型，给它不同的资源和辅助，能力差距可达几个数量级。" — Terence Tao, Mathstodon (2025.7)

"行业目前连模型潜力的 10% 都没用到。" — Andrej Karpathy, 2025 LLM Year in Review

核心判断：模型已经足够强了。瓶颈在于我们如何使用它们。

五个核心问题

💡

1. Ideas 从哪里来？

LLM 生成的是看似合理的想法，不是真正新颖的想法。模型重组训练数据，听起来新但实际上不是。文献覆盖有盲区，没有可靠的新颖性验证。

🧪

2. 如何发现和验证 Ideas？

初步实验代价高，消融实验经常被跳过。"新颖性"没有 ground truth——不像代码 bug 可以自动化测试，没有方法自动检测一个想法是否真正新颖。

⚙️

3. 过程稳定性

CUDA 版本冲突、依赖地狱、SSH 隧道失败。数据集下载失败、文件损坏、格式不匹配。OOM 崩溃、静默 NaN loss、checkpoint 损坏。最平凡但最频繁的失败模式。

📊

4. 如何评估结果？

模型无法评判自己的输出——自我评估在 3-4 轮后收敛到"看起来不错"。更低的 loss 不等于更好的论文。基线经常有微妙 bug。没有终止标准。

🔄

5. 如何持续运行？

Session 生命周期管理、跨故障的状态持久化、资源调度（GPU 分配、API 速率限制、成本预算）、无人类参与的决策循环。

Human in the Loop

人类不是可选的"最后检查"，而是系统的核心组成部分。

🧭

方向设定

哪些问题重要？

🎯

品味判断

惊喜还是平庸？

⚖️

终止/继续

何时放弃死胡同

✅

最终验证

每个主张、每个数字

reproduce.md：复现的未来

📄

开源 Prompt，而非代码

如果代码是 AI 写的，复现也应该由 AI 来完成。每篇论文附带一个 reproduce.md——AI 复现所需的一切信息：环境、数据、训练、预期指标、验证标准。我们现在已经不需要开源代码了，我们需要的是开源 prompt。

终极愿景

Every GPU contributes. Every cycle counts. Science never sleeps.
每块 GPU 都在贡献，每个计算周期都有价值，科学永不休眠。

🎓

演讲完整回顾

本演讲于 2026 年 3 月呈现。上方幻灯片包含完整的视觉内容，包括架构图、模型对比和完整的 ARIS 框架。

Auto Research：多智能体自主科学发现 ​

出发点 ​

五个核心问题 ​