为什么单列一个 VibePaper 专题
这条线不只是在讲 paper。 真正值得拆的是:一个系统如何把论文阅读、baseline 复现、实验迭代、图表整理、成稿输出和长期记忆串成一个持续运行的研究工作流。
所以这页不会写成“论文推荐列表”,也不会只做项目导航。它的目标是把自动科研 / 自动论文系统放到同一张结构图里看:谁更像插件包,谁更像 research studio,谁更适合当我们自己站点后续自动教程与研究循环的参考系。
当前先收三条样本项目
Autoresearch / ARIS
更像单插件 / 单循环协议:强调自主改进、机械验证、发货检查与可度量的 iteration 过程。当前在 VibePaper 里把 ARIS(Auto-Research In Sleep) 视作这条样本线的延伸分支来读。
站内入口:Autoresearch 解构
本地路径:reference/reference_agent/autoresearch/ · reference/reference_agent/aris/
DeepScientist
更像本地优先的自动科研 studio:one repo per quest、baseline/experiment/paper 一体化、可见研究进度、可人工 takeover。适合研究“自动科研工作台”的控制面和交互面到底怎么做。
站内入口:DeepScientist 解构
本地路径:reference/reference_agent/DeepScientist/
AI Scientist-v2
更像paper factory / agentic tree search system:先生成 idea,再用树搜索推进实验、分析、写作,最后产出 PDF。适合研究“从实验管理到论文成稿”的自动流水线。
站内入口:AI-Scientist 总专题
本地路径:reference/reference_agent/AI-Scientist-v2/ · reference/reference_agent/AI-Scientist/ · reference/reference_agent/EvoScientist/
Codex Loop in Sleep
把“睡眠态自动推进”单独拆开:研究循环如何在无人值守时推进计划、产出中间状态,并在醒来后交还给操作者。
站内入口:Codex Loop in Sleep
Agent Skills 架构论文
把技能库、技能发现、技能组合和研究写作系统放到同一条阅读线里,作为 VibePaper 的能力层补充。
进入 →
当前站内状态可以先这样理解:Autoresearch / ARIS 和 DeepScientist 已经各自展开成独立解构页;AI-Scientist 这一支现在有了单独 family hub,用来承接 AI Scientist-v1 / v2、EvoScientist 与 data-scientist 邻居线;AIDE ML 则继续留在候选底座 lane,用来解释 AI Scientist-v2 背后的上游实验搜索结构。
这里先不把 ARIS 单独抬成第四种壳,原因也很明确:它在本地 README 里把自己写成 methodology, not a platform,而且强调整套系统仍然是 plain Markdown skills 组合出来的研究工作流。这更像是在 Autoresearch 这条协议壳样本线上继续加厚,而不是长出一个新的独立控制面。
| 维度 | Autoresearch 基线 |
ARIS 在同一条线上加厚了什么 |
|---|---|---|
| control plane | 更像 loop contract,本体是 goal / metric / verify / rollback 这组执行协议 | 把协议面继续扩成 /research-pipeline、/rebuttal、/paper-writing 这类可组合工作流,但载体仍然是可读的 skill / markdown 组合 |
| durable state | 更偏 git 历史、verify 结果、比较日志与 guide 文档 | 进一步把 state 扩到 research-wiki、brief、report、rebuttal 等文件化研究产物,但仍然保持 plain-file 持久化,而不是长出独立数据库平台 |
| review topology | 更多还是单循环里的自检、verify 和结果回写 | 把 reviewer 面显式外置成 cross-model collaboration:执行端跑研究,外部 reviewer 通过 Codex MCP 等桥接来挑错、打分和追问,所以方法论厚度明显增加,但壳仍然是 workflow-first |
| automation boundary | 默认更像“有人盯着的循环协议”,重点是把一次研究迭代跑通 | workflow 已经延伸到 overnight research、auto-review 和多阶段 pipeline,但 README 仍明确把 daemon mode 列为未完成项;现在靠状态文件跨 session 恢复,而不是已经长成真正无人值守的平台编排层 |
| memory surface | 记忆更多是散在 git、日志和对照文档里的结果痕迹 | 开始长出可主动查询和回写的 memory surface:/research-wiki、multi-file memory index、/plan、/tasks 会把 papers、ideas、claims、failed runs 组织成可检索的文件化研究记忆,但这层仍然是 plain files,不是独立 memory service |
| 站内教学定位 | 讲清“单循环协议”怎么跑通 | 讲清“协议壳怎样扩成多工作流研究方法论”,所以先并在同一条样本线里,而不是另开第四种壳 |
当前先把 ARIS 收在这里,不再继续按“再补一行”无限展开。除非后面出现新的独立控制面信号,例如它真的长出独立服务层、稳定 daemon 编排层,或者不再以 plain-file workflow 为主,否则站内就继续把它并在 Autoresearch 这条协议壳样本线里教。
[插图提示词]
用途:画 VibePaper 当前入口结构,让读者先分清三主样本和候选底座不是同一层。
形式:三主样本加一条候选旁路的结构图;Mermaid 或 HTML 卡片图都可以。
提示词:上方主线放三张主样本卡:Autoresearch,突出 plugin、command surface、verify loop、mechanical checklist;DeepScientist,突出 quest repo、baseline、experiment rounds、paper outputs、visible workspace、human takeover;AI Scientist-v2,突出 idea generation、tree search、experiment manager、writeup pipeline。旁路再放 AIDE ML,标注 benchmark-first optimization lab 与 AI Scientist-v2 的上游承接关系。图中央注明三主样本负责教学入口,候选底座先留在 comparison lane。
Mermaid 更适合:是。
先用四个问题把当前锚点放到一张表里
Task 6 后续加新系统时,不应该先写宣传语,而应该先回答四个结构问题:它更像哪种系统形态,它的 control plane 在哪,它保留什么 durable state,它最适合长成哪类教程内容。先把当前三条样本放进同一张表,后面加新项目时才能保持口径一致。
| 系统 | 更像哪种形态 | 对应壳层 | control plane 在哪 | durable state 保留什么 | 值得长成什么教程 |
|---|---|---|---|---|---|
Autoresearch / ARIS |
插件式研究循环协议 | protocol shell / 协议壳 | goal + metric + scope + verify + rollback + git memory 这套 loop contract,而不是某个厚 UI |
git 历史、实验提交、verify 结果、比较日志、guide / comparison 文档 | 最适合长成“研究循环协议”“验证链路”“单循环 debug / fix / ship 方法论” |
DeepScientist |
本地优先研究工作台 | studio shell / 工作台壳 | quest + baseline/experiment/write stage workflow + quest repo,而不是单个聊天框 |
quest repo、findings memory、artifacts、paper outputs、visible workspace 状态 | 最适合长成“quest repo 操作系统”“durable research loop”“自动科研工作台分层” |
AI Scientist-v2 |
paper factory / agentic tree search system | paper pipeline shell / 论文流水线壳 | launch_scientist_bfts.py、bfts_config.yaml 与 experiment manager agent 组成的树搜索调度面 |
idea JSON、experiments/ 日志、unified_tree_viz.html、writeup 中间产物与最终 PDF |
最适合长成“idea → tree search → experiment → paper draft”流水线教程,以及 search manager 对照课 |
这张表现在多补了一列“对应壳层”,作用也更明确:第一,它把 Autoresearch / ARIS、DeepScientist 和 AI Scientist-v2 的差异压缩成站内统一口径,避免以后专题页越长越散;第二,它让上面的四问总表和后面的 thickness 小节直接对上,不必来回换术语;第三,它给后续新增项目提供一个最低准入模板,如果这几列答不清楚,就先不要急着把它抬成独立子专题。
[插图提示词]
用途:画 VibePaper 四问评估框架,把“系统形态 / 控制面 / 持久状态 / 教程价值”变成可复用评估卡。
形式:四栏结构卡。
提示词:画一个 VibePaper evaluation framework 图,横向四列分别是 system shape、control plane、durable state、tutorial value,纵向放三行案例:Autoresearch、DeepScientist 和 AI Scientist-v2。Autoresearch 行突出 plugin protocol、loop contract、git memory、verify tutorial;DeepScientist 行突出 research studio、quest workflow、findings memory 和 paper outputs、workspace tutorial;AI Scientist-v2 行突出 agentic tree search、experiment manager、experiment logs 和 PDF writeup。
Mermaid 更适合:否,更适合 HTML 卡片图。
新进候选:AI Scientist-v2 先放 hub,不急着拆独立页
这一轮先把一个新候选系统接进 VibePaper:AI Scientist-v2。选择它的原因很直接:它有明确的官方 repo、官方 paper,而且“从 idea 到 experiment 再到 PDF”这条链比一般 research agent 更完整,适合放进 VibePaper 的比较坐标里。
先按四问框架给出当前判断:第一,它不是插件式协议,也不是厚重 studio,更像 paper factory / agentic tree search system;第二,它的 control plane 更靠近 launch_scientist_bfts.py、bfts_config.yaml 和 README 里提到的 experiment manager agent;第三,它的 durable state 主要落在 idea JSON、experiments/ 下的 timestamped logs、unified_tree_viz.html、最终 PDF 与 writeup 中间产物;第四,它最适合长成“idea → tree search → experiment → paper draft”的流水线教程,以及“研究控制面为什么从 loop contract 变成 search manager”的对照课。
当前站内决策:它先作为 short hub card / comparison sample 保留在 VibePaper 总页里,还不急着升成独立 unpacked 页面。等后面把 AI Scientist-v1 / v2 差异和它引用的 AIDE 底座再看清,再决定是否单独拆页。
再做一个受控 intake:AIDE ML 先作为优化实验室候选
这一轮新接入的不是第四个正式样本,而是一个受控候选:AIDE ML。它的价值不在“会不会直接写论文”,而在于它把 code-space tree search + benchmark optimization 做得非常清楚,而且是 AI Scientist-v2 背后直接承接的参考算法之一。
先按四问框架给出当前判断:第一,它不是 plugin 协议,也不是 workspace studio,更像 benchmark-first optimization lab;第二,它的 control plane 更靠近 aide CLI、aide/agent.py、aide/run.py 和 journal / report 流程,核心是围绕代码树搜索与评测反馈展开;第三,它的 durable state 主要落在 logs/<id>/best_solution.py、tree_plot.html、journal / report 产物、sample results 与工作目录;第四,它最适合长成“benchmark-first 优化 loop”“代码树搜索怎样比线性代理更强”“AIDE 与 AI Scientist-v2 的承接关系”。
当前站内决策:它先作为 comparison-section candidate 保留在 VibePaper hub,而不是直接加入三主样本表。原因很简单:它和 AI Scientist-v2 关系太近,先作为“上游实验搜索底座”来介绍,比直接把页面扩成四主样本更清楚。
| 系统 | 当前站内角色 | 为什么先放在这个层级 |
|---|---|---|
Autoresearch / ARIS |
主样本 | 它把研究动作压成 loop contract,足够独立,适合单独承担“协议壳”教学入口。 |
DeepScientist |
主样本 | 它已经形成完整的本地研究工作台,适合单独承担“studio shell”教学入口。 |
AI Scientist-v2 |
主样本 | 它直接覆盖 idea 到 writeup 的成稿流水线,足够代表“paper pipeline shell”。 |
AIDE ML |
候选底座 | 它更像 AI Scientist-v2 的上游优化实验底座,当前拿来讲承接关系比抬成第四主样本更清楚。 |
这个小表的作用不是给项目排座次,而是把站内层级固定下来:三主样本负责承担三种壳层的教学入口,AIDE ML 这种上游底座先放在 comparison section,等它能贡献一个真正不同的壳层,再考虑抬升。
再往前走一步:三条线的 control-plane thickness 到底差在哪
如果只看名字,三条线都像“自动科研系统”。但真正值得教学的是它们的控制面厚度差异:Autoresearch / ARIS 最薄,主脑几乎全压在 loop contract 里,重点是 goal / metric / verify / rollback 这些协议面;DeepScientist 最厚,quest repo、stage workflow、memory、workspace、connectors 共同构成一个本地研究工作台;AI Scientist-v2 介于两者之间,但厚度方向不同,它不是把可视化工作台做厚,而是把 experiment manager、tree search、writeup pipeline 做厚,直接朝“论文成稿工厂”靠拢。
这组对照很有用,因为它把 VibePaper 里的三条线从“项目列表”变成了三种不同的系统壳层:第一是协议壳(Autoresearch / ARIS),第二是工作台壳(DeepScientist),第三是论文流水线壳(AI Scientist-v2)。后面如果再接新项目,最先要问的就不是“它火不火”,而是“它到底是在加厚哪一层壳”。这会直接决定它应该被写成 loop 教程、workspace 教程,还是 paper pipeline 教程。
| 系统 | 主要加厚哪一层 | 因此更像什么 |
|---|---|---|
Autoresearch / ARIS |
loop contract / verify / rollback | protocol shell |
DeepScientist |
quest repo / memory / workspace / connectors | studio shell |
AI Scientist-v2 |
tree search / experiment manager / writeup pipeline | paper pipeline shell |
[插图提示词]
用途:画三种 research control-plane thickness,对比协议壳、工作台壳、论文流水线壳。
形式:三栏厚度对比图。
提示词:画一个 VibePaper control-plane thickness 对比图,三列分别是 Autoresearch、DeepScientist、AI Scientist-v2。Autoresearch 列最薄,只突出 loop contract;DeepScientist 列最厚,展示 quest repo、memory、workspace、connectors 多层外壳;AI Scientist-v2 列中等厚度,但重点放在 idea generation、tree search、experiment manager、writeup pipeline。底部标注三者分别对应 protocol shell、studio shell、paper pipeline shell。
Mermaid 更适合:否,更适合 HTML 层叠卡片图。
建议怎么读这条线
最省力的读法,是把这条路线直接按三种壳层来走:先看 protocol shell,再看 studio shell,最后看 paper pipeline shell。这样上面的总表、厚度图和下面的阅读顺序会自动对齐。
1. 先看 Autoresearch / ARIS
对应壳层:protocol shell / 协议壳。先理解“研究动作如何被拆成循环协议、检查表、验证与发货链路”。它更轻,更容易快速把方法论看清楚。
2. 再看 DeepScientist
对应壳层:studio shell / 工作台壳。再看“如果把整套研究过程做成工作台,会多出哪些层”:quest repo、可视化 research map、paper-facing outputs、connector surfaces。
3. 再看 AI Scientist-v2
对应壳层:paper pipeline shell / 论文流水线壳。理解当系统目标直接指向“论文成稿”时,控制面为什么会转成树搜索、实验经理和 writeup 流水线。
4. 补看 AIDE ML
当前角色:candidate substrate / 候选底座。再回到候选底座 lane,看 benchmark-first 优化实验室怎样承接 AI Scientist-v2 背后的实验搜索结构,避免把它误读成第四个主样本。
5. 回到我们的站点
最后再判断哪些值得写成教程、哪些适合做结构图、哪些可以接进 `codex-loop` 的长期循环任务,并优先沿着“协议壳 / 工作台壳 / 论文流水线壳”这三种入口继续扩展。
这里还有一个默认规则:三主样本负责承担站内的第一层教学入口,像 AIDE ML 这样的上游实验搜索底座,先留在 comparison lane,只有当它能代表一个新的系统壳层时,才考虑抬升成独立主样本或子专题。
这个专题会怎么持续长出来
这一页不是一次性写完的静态总结。后续会继续沿着三种壳层入口去长,而不是把新项目随手堆进来:
- 协议壳线:继续找像
Autoresearch / ARIS这样把研究动作压成 loop contract 的系统,并优先补“协议 / verify / rollback”类教程。 - 工作台壳线:继续找像
DeepScientist这样把 workspace、memory、quest repo 做厚的系统,并优先补结构对照和操作路径。 - 论文流水线壳线:继续找像
AI Scientist-v2这样直接面向 writeup / PDF 成稿的系统,并优先补 tree search、experiment manager 和 paper pipeline 视角。
当前这一波围绕 ARIS 澄清、总表壳层对齐和阅读路线同步的局部收口已经完成。下一次再动这页,优先等新的上游 repo intake、真正不同的壳层信号,或者新的高价值结构缺口出现,而不是继续做低收益的微调。
所以这里既是主题总页,也是一个滚动更新的入口。
参考与本地路径
- uditgoenka/autoresearch
- wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)
- ResearAI/DeepScientist
- DeepScientist 官网
- DeepScientist paper (OpenReview)
- SakanaAI/AI-Scientist-v2
- AI Scientist-v2 paper
- WecoAI/aideml
- AIDE paper
reference/reference_agent/autoresearch/reference/reference_agent/aris/reference/reference_agent/DeepScientist/reference/reference_agent/AI-Scientist-v2/reference/reference_agent/aideml/