新专题 自动科研 · 自动论文 · 研究工作台

VibePaper
把自动科研系统放到同一张图里看

这一页先收 Autoresearch / ARISDeepScientistAI Scientist-v2 三条主样本线:前者更像可组合的自主改进循环,中间这条更像本地优先的研究工作台,后者则更接近面向论文成稿的 agentic tree search 系统;AIDE ML 目前先留在上游候选底座 lane,用来解释 AI Scientist-v2 背后的实验搜索结构。
我们后面会继续把同类项目 clone 到 reference/reference_agent/,再按“结构、控制面、教程、图示”四条线持续补完。

为什么单列一个 VibePaper 专题

这条线不只是在讲 paper。 真正值得拆的是:一个系统如何把论文阅读、baseline 复现、实验迭代、图表整理、成稿输出和长期记忆串成一个持续运行的研究工作流。

所以这页不会写成“论文推荐列表”,也不会只做项目导航。它的目标是把自动科研 / 自动论文系统放到同一张结构图里看:谁更像插件包,谁更像 research studio,谁更适合当我们自己站点后续自动教程与研究循环的参考系。

当前先收三条样本项目

当前站内状态可以先这样理解:Autoresearch / ARISDeepScientist 已经各自展开成独立解构页;AI-Scientist 这一支现在有了单独 family hub,用来承接 AI Scientist-v1 / v2EvoScientist 与 data-scientist 邻居线;AIDE ML 则继续留在候选底座 lane,用来解释 AI Scientist-v2 背后的上游实验搜索结构。

这里先不把 ARIS 单独抬成第四种壳,原因也很明确:它在本地 README 里把自己写成 methodology, not a platform,而且强调整套系统仍然是 plain Markdown skills 组合出来的研究工作流。这更像是在 Autoresearch 这条协议壳样本线上继续加厚,而不是长出一个新的独立控制面。

维度 Autoresearch 基线 ARIS 在同一条线上加厚了什么
control plane 更像 loop contract,本体是 goal / metric / verify / rollback 这组执行协议 把协议面继续扩成 /research-pipeline/rebuttal/paper-writing 这类可组合工作流,但载体仍然是可读的 skill / markdown 组合
durable state 更偏 git 历史、verify 结果、比较日志与 guide 文档 进一步把 state 扩到 research-wiki、brief、report、rebuttal 等文件化研究产物,但仍然保持 plain-file 持久化,而不是长出独立数据库平台
review topology 更多还是单循环里的自检、verify 和结果回写 把 reviewer 面显式外置成 cross-model collaboration:执行端跑研究,外部 reviewer 通过 Codex MCP 等桥接来挑错、打分和追问,所以方法论厚度明显增加,但壳仍然是 workflow-first
automation boundary 默认更像“有人盯着的循环协议”,重点是把一次研究迭代跑通 workflow 已经延伸到 overnight research、auto-review 和多阶段 pipeline,但 README 仍明确把 daemon mode 列为未完成项;现在靠状态文件跨 session 恢复,而不是已经长成真正无人值守的平台编排层
memory surface 记忆更多是散在 git、日志和对照文档里的结果痕迹 开始长出可主动查询和回写的 memory surface:/research-wiki、multi-file memory index、/plan/tasks 会把 papers、ideas、claims、failed runs 组织成可检索的文件化研究记忆,但这层仍然是 plain files,不是独立 memory service
站内教学定位 讲清“单循环协议”怎么跑通 讲清“协议壳怎样扩成多工作流研究方法论”,所以先并在同一条样本线里,而不是另开第四种壳

当前先把 ARIS 收在这里,不再继续按“再补一行”无限展开。除非后面出现新的独立控制面信号,例如它真的长出独立服务层、稳定 daemon 编排层,或者不再以 plain-file workflow 为主,否则站内就继续把它并在 Autoresearch 这条协议壳样本线里教。

[插图提示词]

用途:画 VibePaper 当前入口结构,让读者先分清三主样本和候选底座不是同一层。

形式:三主样本加一条候选旁路的结构图;Mermaid 或 HTML 卡片图都可以。

提示词:上方主线放三张主样本卡:Autoresearch,突出 plugin、command surface、verify loop、mechanical checklist;DeepScientist,突出 quest repo、baseline、experiment rounds、paper outputs、visible workspace、human takeover;AI Scientist-v2,突出 idea generation、tree search、experiment manager、writeup pipeline。旁路再放 AIDE ML,标注 benchmark-first optimization lab 与 AI Scientist-v2 的上游承接关系。图中央注明三主样本负责教学入口,候选底座先留在 comparison lane。

Mermaid 更适合:是。

先用四个问题把当前锚点放到一张表里

Task 6 后续加新系统时,不应该先写宣传语,而应该先回答四个结构问题:它更像哪种系统形态,它的 control plane 在哪,它保留什么 durable state,它最适合长成哪类教程内容。先把当前三条样本放进同一张表,后面加新项目时才能保持口径一致。

系统 更像哪种形态 对应壳层 control plane 在哪 durable state 保留什么 值得长成什么教程
Autoresearch / ARIS 插件式研究循环协议 protocol shell / 协议壳 goal + metric + scope + verify + rollback + git memory 这套 loop contract,而不是某个厚 UI git 历史、实验提交、verify 结果、比较日志、guide / comparison 文档 最适合长成“研究循环协议”“验证链路”“单循环 debug / fix / ship 方法论”
DeepScientist 本地优先研究工作台 studio shell / 工作台壳 quest + baseline/experiment/write stage workflow + quest repo,而不是单个聊天框 quest repo、findings memory、artifacts、paper outputs、visible workspace 状态 最适合长成“quest repo 操作系统”“durable research loop”“自动科研工作台分层”
AI Scientist-v2 paper factory / agentic tree search system paper pipeline shell / 论文流水线壳 launch_scientist_bfts.pybfts_config.yaml 与 experiment manager agent 组成的树搜索调度面 idea JSON、experiments/ 日志、unified_tree_viz.html、writeup 中间产物与最终 PDF 最适合长成“idea → tree search → experiment → paper draft”流水线教程,以及 search manager 对照课

这张表现在多补了一列“对应壳层”,作用也更明确:第一,它把 Autoresearch / ARIS、DeepScientist 和 AI Scientist-v2 的差异压缩成站内统一口径,避免以后专题页越长越散;第二,它让上面的四问总表和后面的 thickness 小节直接对上,不必来回换术语;第三,它给后续新增项目提供一个最低准入模板,如果这几列答不清楚,就先不要急着把它抬成独立子专题。

[插图提示词]

用途:画 VibePaper 四问评估框架,把“系统形态 / 控制面 / 持久状态 / 教程价值”变成可复用评估卡。

形式:四栏结构卡。

提示词:画一个 VibePaper evaluation framework 图,横向四列分别是 system shape、control plane、durable state、tutorial value,纵向放三行案例:Autoresearch、DeepScientist 和 AI Scientist-v2。Autoresearch 行突出 plugin protocol、loop contract、git memory、verify tutorial;DeepScientist 行突出 research studio、quest workflow、findings memory 和 paper outputs、workspace tutorial;AI Scientist-v2 行突出 agentic tree search、experiment manager、experiment logs 和 PDF writeup。

Mermaid 更适合:否,更适合 HTML 卡片图。

新进候选:AI Scientist-v2 先放 hub,不急着拆独立页

这一轮先把一个新候选系统接进 VibePaper:AI Scientist-v2。选择它的原因很直接:它有明确的官方 repo、官方 paper,而且“从 idea 到 experiment 再到 PDF”这条链比一般 research agent 更完整,适合放进 VibePaper 的比较坐标里。

先按四问框架给出当前判断:第一,它不是插件式协议,也不是厚重 studio,更像 paper factory / agentic tree search system;第二,它的 control plane 更靠近 launch_scientist_bfts.pybfts_config.yaml 和 README 里提到的 experiment manager agent;第三,它的 durable state 主要落在 idea JSON、experiments/ 下的 timestamped logs、unified_tree_viz.html、最终 PDF 与 writeup 中间产物;第四,它最适合长成“idea → tree search → experiment → paper draft”的流水线教程,以及“研究控制面为什么从 loop contract 变成 search manager”的对照课。

当前站内决策:它先作为 short hub card / comparison sample 保留在 VibePaper 总页里,还不急着升成独立 unpacked 页面。等后面把 AI Scientist-v1 / v2 差异和它引用的 AIDE 底座再看清,再决定是否单独拆页。

再做一个受控 intake:AIDE ML 先作为优化实验室候选

这一轮新接入的不是第四个正式样本,而是一个受控候选:AIDE ML。它的价值不在“会不会直接写论文”,而在于它把 code-space tree search + benchmark optimization 做得非常清楚,而且是 AI Scientist-v2 背后直接承接的参考算法之一。

先按四问框架给出当前判断:第一,它不是 plugin 协议,也不是 workspace studio,更像 benchmark-first optimization lab;第二,它的 control plane 更靠近 aide CLI、aide/agent.pyaide/run.py 和 journal / report 流程,核心是围绕代码树搜索与评测反馈展开;第三,它的 durable state 主要落在 logs/<id>/best_solution.pytree_plot.html、journal / report 产物、sample results 与工作目录;第四,它最适合长成“benchmark-first 优化 loop”“代码树搜索怎样比线性代理更强”“AIDE 与 AI Scientist-v2 的承接关系”。

当前站内决策:它先作为 comparison-section candidate 保留在 VibePaper hub,而不是直接加入三主样本表。原因很简单:它和 AI Scientist-v2 关系太近,先作为“上游实验搜索底座”来介绍,比直接把页面扩成四主样本更清楚。

系统 当前站内角色 为什么先放在这个层级
Autoresearch / ARIS 主样本 它把研究动作压成 loop contract,足够独立,适合单独承担“协议壳”教学入口。
DeepScientist 主样本 它已经形成完整的本地研究工作台,适合单独承担“studio shell”教学入口。
AI Scientist-v2 主样本 它直接覆盖 idea 到 writeup 的成稿流水线,足够代表“paper pipeline shell”。
AIDE ML 候选底座 它更像 AI Scientist-v2 的上游优化实验底座,当前拿来讲承接关系比抬成第四主样本更清楚。

这个小表的作用不是给项目排座次,而是把站内层级固定下来:三主样本负责承担三种壳层的教学入口,AIDE ML 这种上游底座先放在 comparison section,等它能贡献一个真正不同的壳层,再考虑抬升。

主样本 vs 候选底座 三主样本负责教学入口,AIDE ML 暂时只承担上游承接关系。

再往前走一步:三条线的 control-plane thickness 到底差在哪

如果只看名字,三条线都像“自动科研系统”。但真正值得教学的是它们的控制面厚度差异:Autoresearch / ARIS 最薄,主脑几乎全压在 loop contract 里,重点是 goal / metric / verify / rollback 这些协议面;DeepScientist 最厚,quest repo、stage workflow、memory、workspace、connectors 共同构成一个本地研究工作台;AI Scientist-v2 介于两者之间,但厚度方向不同,它不是把可视化工作台做厚,而是把 experiment manager、tree search、writeup pipeline 做厚,直接朝“论文成稿工厂”靠拢。

这组对照很有用,因为它把 VibePaper 里的三条线从“项目列表”变成了三种不同的系统壳层:第一是协议壳(Autoresearch / ARIS),第二是工作台壳(DeepScientist),第三是论文流水线壳(AI Scientist-v2)。后面如果再接新项目,最先要问的就不是“它火不火”,而是“它到底是在加厚哪一层壳”。这会直接决定它应该被写成 loop 教程、workspace 教程,还是 paper pipeline 教程。

系统 主要加厚哪一层 因此更像什么
Autoresearch / ARIS loop contract / verify / rollback protocol shell
DeepScientist quest repo / memory / workspace / connectors studio shell
AI Scientist-v2 tree search / experiment manager / writeup pipeline paper pipeline shell
三种壳层 同样都在做自动科研,但加厚的位置并不一样。

[插图提示词]

用途:画三种 research control-plane thickness,对比协议壳、工作台壳、论文流水线壳。

形式:三栏厚度对比图。

提示词:画一个 VibePaper control-plane thickness 对比图,三列分别是 Autoresearch、DeepScientist、AI Scientist-v2。Autoresearch 列最薄,只突出 loop contract;DeepScientist 列最厚,展示 quest repo、memory、workspace、connectors 多层外壳;AI Scientist-v2 列中等厚度,但重点放在 idea generation、tree search、experiment manager、writeup pipeline。底部标注三者分别对应 protocol shell、studio shell、paper pipeline shell。

Mermaid 更适合:否,更适合 HTML 层叠卡片图。

建议怎么读这条线

最省力的读法,是把这条路线直接按三种壳层来走:先看 protocol shell,再看 studio shell,最后看 paper pipeline shell。这样上面的总表、厚度图和下面的阅读顺序会自动对齐。

1. 先看 Autoresearch / ARIS

对应壳层:protocol shell / 协议壳。先理解“研究动作如何被拆成循环协议、检查表、验证与发货链路”。它更轻,更容易快速把方法论看清楚。

2. 再看 DeepScientist

对应壳层:studio shell / 工作台壳。再看“如果把整套研究过程做成工作台,会多出哪些层”:quest repo、可视化 research map、paper-facing outputs、connector surfaces。

3. 再看 AI Scientist-v2

对应壳层:paper pipeline shell / 论文流水线壳。理解当系统目标直接指向“论文成稿”时,控制面为什么会转成树搜索、实验经理和 writeup 流水线。

4. 补看 AIDE ML

当前角色:candidate substrate / 候选底座。再回到候选底座 lane,看 benchmark-first 优化实验室怎样承接 AI Scientist-v2 背后的实验搜索结构,避免把它误读成第四个主样本。

5. 回到我们的站点

最后再判断哪些值得写成教程、哪些适合做结构图、哪些可以接进 `codex-loop` 的长期循环任务,并优先沿着“协议壳 / 工作台壳 / 论文流水线壳”这三种入口继续扩展。

这里还有一个默认规则:三主样本负责承担站内的第一层教学入口,像 AIDE ML 这样的上游实验搜索底座,先留在 comparison lane,只有当它能代表一个新的系统壳层时,才考虑抬升成独立主样本或子专题。

这个专题会怎么持续长出来

这一页不是一次性写完的静态总结。后续会继续沿着三种壳层入口去长,而不是把新项目随手堆进来:

  • 协议壳线:继续找像 Autoresearch / ARIS 这样把研究动作压成 loop contract 的系统,并优先补“协议 / verify / rollback”类教程。
  • 工作台壳线:继续找像 DeepScientist 这样把 workspace、memory、quest repo 做厚的系统,并优先补结构对照和操作路径。
  • 论文流水线壳线:继续找像 AI Scientist-v2 这样直接面向 writeup / PDF 成稿的系统,并优先补 tree search、experiment manager 和 paper pipeline 视角。

当前这一波围绕 ARIS 澄清、总表壳层对齐和阅读路线同步的局部收口已经完成。下一次再动这页,优先等新的上游 repo intake、真正不同的壳层信号,或者新的高价值结构缺口出现,而不是继续做低收益的微调。

所以这里既是主题总页,也是一个滚动更新的入口。

参考与本地路径