开源 Agent Dev 栈专题 - Everything in Claude-Code

四层地图

同样都叫 “Agent”，但有的在做 tool-use 数据与评测，有的在做 autonomous software engineer，有的在做 本地代码执行器，还有的在做 工作流产品壳。先分层，再比较，信息密度会高很多。

🧪 Tool / Data / Eval

ToolBench、OpenAgents

看 tool-use 数据、Agent 评测、插件/数据/网页代理的研究原型。

🔥 自主软件 Agent

OpenDevin、MetaGPT、AgentGPT、SuperAGI、Devika

看任务拆解、角色分工、agent runtime、前后端与部署壳层。

🛠️ Code / Tool Agent

open-interpreter、developer

看代码执行、审批边界、人机协作与轻量脚手架代理。

🏗️ 工作流 / 产品化平台

Flowise、Dify、Langflow

看可视化编排、API/Web 分层、部署与 MCP / workflow export。

项目卡片

ToolBench

定位：tool-use 数据、训练与评测底座。

先看：toolbench/、preprocess/、scripts/。

借鉴点：如果想做“工具会不会用”的 benchmark，这个是起点。

OpenAgents

定位：Open platform for language agents in the wild。

先看：real_agents/、backend/、frontend/。

借鉴点：把 data agent、plugin agent、web agent 放进同一张图里看。

OpenDevin / OpenHands

定位：开发型 agent 的完整工程壳层。

先看：openhands/、frontend/、skills/、containers/。

借鉴点：runtime、workspace、UI、skills、容器执行边界怎么拼起来。

MetaGPT

定位：多角色协作的软件公司式 agent framework。

先看：metagpt/、examples/、config/。

借鉴点：角色分工与多 agent orchestration 的经典样本。

AgentGPT

定位：浏览器中配置并运行 autonomous agent 的代表作。

先看：next/、platform/、cli/。

借鉴点：Web 产品壳如何包裹 autonomous task loop。

SuperAGI

定位：带 marketplace、memory、telemetry 的 agent platform。

先看：superagi/、gui/、docker-compose.yaml。

借鉴点：一个老牌“全家桶式 agent 平台”长什么样。

Devika

定位：开源 Devin 叙事下的软件工程 agent 原型。

先看：src/、ui/、benchmarks/。

借鉴点：规划、研究、编码三件事如何串成同一条链。

open-interpreter

定位：本地运行代码的 terminal agent。

先看：interpreter/、docs/、examples/。

借鉴点：本地执行、自然语言交互与 approval gate 的设计。

smol developer

定位：很轻量的人在环脚手架 agent。

先看：smol_dev/、examples/、readme.md。

借鉴点：用最薄的 agent 层做 whole-program synthesis 原型。

Flowise

定位：Node 生态里的可视化 agentflow 平台。

先看：packages/、docker/。

借鉴点：可拖拽工作流怎样落成可部署产品。

Dify

定位：产品化最厚的一条 agent app 平台线。

先看：api/、web/、docker/、sdks/。

借鉴点：API、Web、Docker、运营层如何一起长成完整产品。

Langflow

定位：Python 主导的 workflow / agent 平台。

先看：src/、docs/、deploy/。

借鉴点：flow 不只是画布，还能导出成 API 或 MCP server。

怎么看这批仓库更有效

不要只问“它是不是 Agent”。更有用的问法是：

它的核心对象是 tool、task、issue、workflow 还是 deployment？
它重点卖的是 autonomy、multi-agent collaboration、local execution 还是 product shell？
它有没有前端、容器、权限、marketplace、telemetry、SDK 这些“厚壳层”？
它适合借鉴 runtime、UI、benchmark、workflow builder 还是 operator UX？

一个够用的阅读顺序是：先看 ToolBench 理解工具调用数据与评测，再看 OpenDevin / MetaGPT 理解开发型 agent runtime，然后看 open-interpreter 理解“本地执行 + 审批边界”，最后再回到 Flowise / Dify / Langflow 看产品化壳层。

如果你要继续从本地仓库往下钻，可以直接读 reference/reference_agent_dev/README.md。

开源 Agent Dev 栈 不是一堆仓库，而是四层地图