Skip to content

Auto Research:多智能体自主科学发现

Jingxuan Kang · 2026 年 3 月


Auto Research — 多智能体自主科学发现
Auto Research — 多智能体自主科学发现
1 / 22

出发点

"同样的模型,给它不同的资源和辅助,能力差距可达几个数量级。"Terence Tao, Mathstodon (2025.7)

"行业目前连模型潜力的 10% 都没用到。"Andrej Karpathy, 2025 LLM Year in Review

核心判断:模型已经足够强了。瓶颈在于我们如何使用它们。


五个核心问题

💡

1. Ideas 从哪里来?

LLM 生成的是看似合理的想法,不是真正新颖的想法。模型重组训练数据,听起来新但实际上不是。文献覆盖有盲区,没有可靠的新颖性验证。
🧪

2. 如何发现和验证 Ideas?

初步实验代价高,消融实验经常被跳过。"新颖性"没有 ground truth——不像代码 bug 可以自动化测试,没有方法自动检测一个想法是否真正新颖。
⚙️

3. 过程稳定性

CUDA 版本冲突、依赖地狱、SSH 隧道失败。数据集下载失败、文件损坏、格式不匹配。OOM 崩溃、静默 NaN loss、checkpoint 损坏。最平凡但最频繁的失败模式。
📊

4. 如何评估结果?

模型无法评判自己的输出——自我评估在 3-4 轮后收敛到"看起来不错"。更低的 loss 不等于更好的论文。基线经常有微妙 bug。没有终止标准。
🔄

5. 如何持续运行?

Session 生命周期管理、跨故障的状态持久化、资源调度(GPU 分配、API 速率限制、成本预算)、无人类参与的决策循环。

Human in the Loop

人类不是可选的"最后检查",而是系统的核心组成部分。

🧭

方向设定

哪些问题重要?

🎯

品味判断

惊喜还是平庸?

⚖️

终止/继续

何时放弃死胡同

最终验证

每个主张、每个数字


reproduce.md:复现的未来

📄

开源 Prompt,而非代码

如果代码是 AI 写的,复现也应该由 AI 来完成。每篇论文附带一个 reproduce.md——AI 复现所需的一切信息:环境、数据、训练、预期指标、验证标准。我们现在已经不需要开源代码了,我们需要的是开源 prompt。

终极愿景

Every GPU contributes. Every cycle counts. Science never sleeps.

每块 GPU 都在贡献,每个计算周期都有价值,科学永不休眠。

🎓

演讲完整回顾

本演讲于 2026 年 3 月呈现。上方幻灯片包含完整的视觉内容,包括架构图、模型对比和完整的 ARIS 框架。

Released under the MIT License.