模型评测专页 - AI杂货铺

Rule

先记住一个总原则

MMLU：更像“知识与学科题”的经典单点。

MMBench：更像“多模态理解”的常驻入口。

OpenCompass：更像“多 benchmark 聚合的平台层”。

HELM：更像“透明、可复现、强调评测方法论”的框架层。

Four

四个入口，分别适合什么时候打开

01 · MMLU

MMLU

原始 MMLU 来自 Dan Hendrycks 团队的 Measuring Massive Multitask Language Understanding。官方仓库长期被当成“学科知识与通识问答能力”的老参照。它覆盖 57 个学科，所以很适合看模型在传统考试式知识题上的总体水平。

适合问“通识 / 学科题大致到什么水平了”
不适合拿来当今天所有能力的总分

官方仓库 ↗

02 · MMBench

MMBench

MMBench 的论文把它定义成一个双语多模态 benchmark，用来看视觉语言模型是不是“全能型选手”。所以它最适合在你关心图文理解、视觉问答、多模态认知时打开，而不是替代 MMLU。

适合问“多模态模型懂图、懂文、懂组合到什么程度”
尤其适合和 OpenCompass 多模态榜一起看

官方入口 ↗

03 · OpenCompass

OpenCompass

OpenCompass 不只是一个 benchmark 名字，而是一个聚合很多 benchmark 的评测平台。更准确地说，它是“去哪里看很多 benchmark 的组织化结果”这个问题的答案。看大盘、看多个维度、看不同模型的宽表时，它更顺手。

适合需要“一页看很多 benchmark”的时候
不适合把平台上的单个分数误读成 benchmark 本体

官方榜单入口 ↗

04 · HELM

HELM

HELM 更值得被理解成“评测方法论 + 透明实现”路线。Stanford CRFM 持续强调可解释、可复现、公开 prompt / 适配方式。它适合在你已经不满足于看一个数字，而是想知道“这个榜到底怎么跑出来”的时候打开。

适合问“这个评测是否透明、是否可复现、是否方法论清楚”
也是理解 benchmark 差异的好入口

官方入口 ↗

Read

最实用的读榜顺序

第一步：先看你关心的是文字知识题还是多模态题。前者先看 MMLU，后者先看 MMBench。

第二步：再去 OpenCompass 看这个模型在更多 benchmark 上的横向表现，而不是只盯一个分数。

第三步：如果你开始怀疑“这些分到底怎么来的”，再回头看 HELM 这类更强调透明评测方法的入口。

Atlas

评测地图：把你贴的这些入口放回各自语境里

这组不是一个维度上的名单。有的是 benchmark，有的是排行榜，有的是评测平台，有的是垂直数据集。悬停某一项时，同类会一起亮起来，比较不容易把“平台”和“题集”混看。

MA

MagicArena

字节推出的视觉生成模型对战平台。

Arena视觉生成平台

MU

MMLU

大规模多任务语言理解基准，适合看知识与学科题。

Benchmark文本知识能力

HF

Open LLM Leaderboard

Hugging Face 推出的开源大模型排行榜单。

Leaderboard平台开源模型

CE

C-Eval

全面的中文基础模型评估套件。

Benchmark中文知识能力

FE

FlagEval

智源研究院推出的 FlagEval（天秤）大模型评测平台。

平台中文生态排行榜

SC

SuperCLUE

中文通用大模型综合性测评基准。

中文综合评测榜单

AG

AGI-Eval

以考试题为主的大模型评测社区与 benchmark 路线。

Benchmark考试题文本

OC

OpenCompass

上海人工智能实验室推出的大模型开放评测体系。

平台多 Benchmark榜单

CM

CMMLU

综合性的大模型中文评估基准。

Benchmark中文知识能力

MM

MMBench

全方位的多模态大模型能力评测体系。

Benchmark多模态视觉理解

HE

HELM

斯坦福大学推出的大模型评测体系，强调透明方法论。

评测框架方法论透明复现

LA

LMArena

AI 模型评估平台，常被拿来做对战式比较。

Arena平台对战比较

L3

LLMEval3

复旦大学 NLP 实验室推出的大模型评测基准。

Benchmark中文生态文本能力

H2

H2O EvalGPT

H2O.ai 推出的基于 Elo 评级方法的大模型评估系统。

Elo 评级平台对战比较

PM

PubMedQA

生物医学研究问答数据集和模型得分排行榜。

数据集垂直领域医疗问答

Sources

主来源

hendrycks/test ↗ · MMBench ↗ · OpenCompass ↗ · HELM ↗ · MMBench 论文 ↗

看榜单之前先想清楚 你到底想知道模型的哪一种能力

先记住一个总原则

四个入口，分别适合什么时候打开

MMLU

MMBench

OpenCompass

HELM

最实用的读榜顺序

评测地图：把你贴的这些入口放回各自语境里

MagicArena

MMLU

Open LLM Leaderboard

C-Eval

FlagEval

SuperCLUE

AGI-Eval

OpenCompass

CMMLU

MMBench

HELM

LMArena

LLMEval3

H2O EvalGPT

PubMedQA

主来源

看榜单之前先想清楚
你到底想知道模型的哪一种能力