Auto Research:多智能体自主科学发现
Jingxuan Kang · 2026 年 3 月
出发点
"同样的模型,给它不同的资源和辅助,能力差距可达几个数量级。" — Terence Tao, Mathstodon (2025.7)
"行业目前连模型潜力的 10% 都没用到。" — Andrej Karpathy, 2025 LLM Year in Review
核心判断:模型已经足够强了。瓶颈在于我们如何使用它们。
五个核心问题
1. Ideas 从哪里来?
LLM 生成的是看似合理的想法,不是真正新颖的想法。模型重组训练数据,听起来新但实际上不是。文献覆盖有盲区,没有可靠的新颖性验证。
2. 如何发现和验证 Ideas?
初步实验代价高,消融实验经常被跳过。"新颖性"没有 ground truth——不像代码 bug 可以自动化测试,没有方法自动检测一个想法是否真正新颖。
3. 过程稳定性
CUDA 版本冲突、依赖地狱、SSH 隧道失败。数据集下载失败、文件损坏、格式不匹配。OOM 崩溃、静默 NaN loss、checkpoint 损坏。最平凡但最频繁的失败模式。
4. 如何评估结果?
模型无法评判自己的输出——自我评估在 3-4 轮后收敛到"看起来不错"。更低的 loss 不等于更好的论文。基线经常有微妙 bug。没有终止标准。
5. 如何持续运行?
Session 生命周期管理、跨故障的状态持久化、资源调度(GPU 分配、API 速率限制、成本预算)、无人类参与的决策循环。
Human in the Loop
人类不是可选的"最后检查",而是系统的核心组成部分。
方向设定
哪些问题重要?
品味判断
惊喜还是平庸?
终止/继续
何时放弃死胡同
最终验证
每个主张、每个数字
reproduce.md:复现的未来
开源 Prompt,而非代码
如果代码是 AI 写的,复现也应该由 AI 来完成。每篇论文附带一个 reproduce.md——AI 复现所需的一切信息:环境、数据、训练、预期指标、验证标准。我们现在已经不需要开源代码了,我们需要的是开源 prompt。
终极愿景
Every GPU contributes. Every cycle counts. Science never sleeps.
每块 GPU 都在贡献,每个计算周期都有价值,科学永不休眠。
演讲完整回顾
本演讲于 2026 年 3 月呈现。上方幻灯片包含完整的视觉内容,包括架构图、模型对比和完整的 ARIS 框架。
