这条专题不直接教你怎么用 Claude Code,而是补“模型本体”这条线:注意力、混合架构、MoE、长上下文、推理成本这些基础结构,决定了上层 Agent 工具链为什么会长成现在这样。
如果你最近想系统补大模型架构,而不是只看零散博客,我很推荐 Sebastian Raschka 的 LLM Architecture Gallery。它适合做一个“结构型入口”:看不同架构是怎么分的、各自解决什么问题、现在的新模型在往哪边演化。
它更像一个持续扩展的架构图谱,适合在你脑子里先搭一张“模型结构地图”,再回头读论文或实现。
Source Map 轴讲的是 Claude Code 这类产品外壳,大模型专题补的是“模型骨架”。两者合起来,工程视角会完整很多。
以后如果你继续收 MoE、Hybrid Attention、Mamba / DeltaNet、长上下文和推理优化,这一页就可以作为总目录。
先把 Transformer、混合注意力、状态空间模型、MoE 这些大类分清,再去看具体模型,不容易迷路。
很多架构变化并不是“更先进”这么简单,而是为了上下文长度、训练效率、推理吞吐和显存成本服务。
当你理解模型内部的注意力和混合结构,再看外层 Agent Loop、RAG、工具调用,会更知道系统瓶颈到底在哪一层。
这页最强的点在于它降低了论文阅读门槛。先建立图谱,再读论文摘要和实现,会轻松很多。