子专题 模型评测

看榜单之前先想清楚
你到底想知道模型的哪一种能力

`MMLU`、`MMBench`、`OpenCompass`、`HELM` 不是同一层次的东西。
有的是单 benchmark,有的是评测平台,有的是更强调透明框架。把它们混着看,很容易得出错误结论。

Rule

先记住一个总原则

MMLU:更像“知识与学科题”的经典单点。

MMBench:更像“多模态理解”的常驻入口。

OpenCompass:更像“多 benchmark 聚合的平台层”。

HELM:更像“透明、可复现、强调评测方法论”的框架层。

Four

四个入口,分别适合什么时候打开

01 · MMLU

MMLU

原始 MMLU 来自 Dan Hendrycks 团队的 Measuring Massive Multitask Language Understanding。官方仓库长期被当成“学科知识与通识问答能力”的老参照。它覆盖 57 个学科,所以很适合看模型在传统考试式知识题上的总体水平。

  • 适合问“通识 / 学科题大致到什么水平了”
  • 不适合拿来当今天所有能力的总分

官方仓库 ↗

02 · MMBench

MMBench

MMBench 的论文把它定义成一个双语多模态 benchmark,用来看视觉语言模型是不是“全能型选手”。所以它最适合在你关心图文理解、视觉问答、多模态认知时打开,而不是替代 MMLU。

  • 适合问“多模态模型懂图、懂文、懂组合到什么程度”
  • 尤其适合和 OpenCompass 多模态榜一起看

官方入口 ↗

03 · OpenCompass

OpenCompass

OpenCompass 不只是一个 benchmark 名字,而是一个聚合很多 benchmark 的评测平台。更准确地说,它是“去哪里看很多 benchmark 的组织化结果”这个问题的答案。看大盘、看多个维度、看不同模型的宽表时,它更顺手。

  • 适合需要“一页看很多 benchmark”的时候
  • 不适合把平台上的单个分数误读成 benchmark 本体

官方榜单入口 ↗

04 · HELM

HELM

HELM 更值得被理解成“评测方法论 + 透明实现”路线。Stanford CRFM 持续强调可解释、可复现、公开 prompt / 适配方式。它适合在你已经不满足于看一个数字,而是想知道“这个榜到底怎么跑出来”的时候打开。

  • 适合问“这个评测是否透明、是否可复现、是否方法论清楚”
  • 也是理解 benchmark 差异的好入口

官方入口 ↗

Read

最实用的读榜顺序

第一步:先看你关心的是文字知识题还是多模态题。前者先看 MMLU,后者先看 MMBench。

第二步:再去 OpenCompass 看这个模型在更多 benchmark 上的横向表现,而不是只盯一个分数。

第三步:如果你开始怀疑“这些分到底怎么来的”,再回头看 HELM 这类更强调透明评测方法的入口。

Atlas

评测地图:把你贴的这些入口放回各自语境里

这组不是一个维度上的名单。有的是 benchmark,有的是排行榜,有的是评测平台,有的是垂直数据集。悬停某一项时,同类会一起亮起来,比较不容易把“平台”和“题集”混看。

MagicArena

字节推出的视觉生成模型对战平台。

Arena视觉生成平台
相关:LMArena、MMBench

MMLU

大规模多任务语言理解基准,适合看知识与学科题。

Benchmark文本知识能力
相关:C-Eval、CMMLU、AGI-Eval

Open LLM Leaderboard

Hugging Face 推出的开源大模型排行榜单。

Leaderboard平台开源模型
相关:OpenCompass、FlagEval、SuperCLUE

C-Eval

全面的中文基础模型评估套件。

Benchmark中文知识能力
相关:CMMLU、SuperCLUE、MMLU

FlagEval

智源研究院推出的 FlagEval(天秤)大模型评测平台。

平台中文生态排行榜
相关:OpenCompass、Open LLM Leaderboard、SuperCLUE

SuperCLUE

中文通用大模型综合性测评基准。

中文综合评测榜单
相关:C-Eval、CMMLU、FlagEval

AGI-Eval

以考试题为主的大模型评测社区与 benchmark 路线。

Benchmark考试题文本
相关:MMLU、C-Eval、CMMLU

OpenCompass

上海人工智能实验室推出的大模型开放评测体系。

平台多 Benchmark榜单
相关:MMBench、FlagEval、Open LLM Leaderboard

CMMLU

综合性的大模型中文评估基准。

Benchmark中文知识能力
相关:C-Eval、MMLU、SuperCLUE

MMBench

全方位的多模态大模型能力评测体系。

Benchmark多模态视觉理解
相关:MagicArena、OpenCompass、LMArena

HELM

斯坦福大学推出的大模型评测体系,强调透明方法论。

评测框架方法论透明复现
相关:OpenCompass、H2O EvalGPT

LMArena

AI 模型评估平台,常被拿来做对战式比较。

Arena平台对战比较
相关:MagicArena、Open LLM Leaderboard、H2O EvalGPT

LLMEval3

复旦大学 NLP 实验室推出的大模型评测基准。

Benchmark中文生态文本能力
相关:C-Eval、CMMLU、SuperCLUE

H2O EvalGPT

H2O.ai 推出的基于 Elo 评级方法的大模型评估系统。

Elo 评级平台对战比较
相关:LMArena、HELM

PubMedQA

生物医学研究问答数据集和模型得分排行榜。

数据集垂直领域医疗问答
相关:MMLU、AGI-Eval
Sources

主来源

hendrycks/test ↗ · MMBench ↗ · OpenCompass ↗ · HELM ↗ · MMBench 论文 ↗