📌 新专题 LLM · Architecture

大模型专题
架构图谱 · 阅读入口

这条专题不直接教你怎么用 Claude Code，而是补“模型本体”这条线：注意力、混合架构、MoE、长上下文、推理成本这些基础结构，决定了上层 Agent 工具链为什么会长成现在这样。

首推入口：LLM Architecture Gallery

如果你最近想系统补大模型架构，而不是只看零散博客，我很推荐 Sebastian Raschka 的 LLM Architecture Gallery。它适合做一个“结构型入口”：看不同架构是怎么分的、各自解决什么问题、现在的新模型在往哪边演化。

Architecture Gallery ↗ Sebastian Raschka ↗

它更像一个持续扩展的架构图谱，适合在你脑子里先搭一张“模型结构地图”，再回头读论文或实现。

Source Map 轴讲的是 Claude Code 这类产品外壳，大模型专题补的是“模型骨架”。两者合起来，工程视角会完整很多。

以后如果你继续收 MoE、Hybrid Attention、Mamba / DeltaNet、长上下文和推理优化，这一页就可以作为总目录。

🧱

先把 Transformer、混合注意力、状态空间模型、MoE 这些大类分清，再去看具体模型，不容易迷路。

📏

很多架构变化并不是“更先进”这么简单，而是为了上下文长度、训练效率、推理吞吐和显存成本服务。

🔁

当你理解模型内部的注意力和混合结构，再看外层 Agent Loop、RAG、工具调用，会更知道系统瓶颈到底在哪一层。

📚

这页最强的点在于它降低了论文阅读门槛。先建立图谱，再读论文摘要和实现，会轻松很多。