先记住一个总原则
MMLU:更像“知识与学科题”的经典单点。
MMBench:更像“多模态理解”的常驻入口。
OpenCompass:更像“多 benchmark 聚合的平台层”。
HELM:更像“透明、可复现、强调评测方法论”的框架层。
四个入口,分别适合什么时候打开
MMLU
原始 MMLU 来自 Dan Hendrycks 团队的 Measuring Massive Multitask Language Understanding。官方仓库长期被当成“学科知识与通识问答能力”的老参照。它覆盖 57 个学科,所以很适合看模型在传统考试式知识题上的总体水平。
- 适合问“通识 / 学科题大致到什么水平了”
- 不适合拿来当今天所有能力的总分
MMBench
MMBench 的论文把它定义成一个双语多模态 benchmark,用来看视觉语言模型是不是“全能型选手”。所以它最适合在你关心图文理解、视觉问答、多模态认知时打开,而不是替代 MMLU。
- 适合问“多模态模型懂图、懂文、懂组合到什么程度”
- 尤其适合和 OpenCompass 多模态榜一起看
OpenCompass
OpenCompass 不只是一个 benchmark 名字,而是一个聚合很多 benchmark 的评测平台。更准确地说,它是“去哪里看很多 benchmark 的组织化结果”这个问题的答案。看大盘、看多个维度、看不同模型的宽表时,它更顺手。
- 适合需要“一页看很多 benchmark”的时候
- 不适合把平台上的单个分数误读成 benchmark 本体
HELM
HELM 更值得被理解成“评测方法论 + 透明实现”路线。Stanford CRFM 持续强调可解释、可复现、公开 prompt / 适配方式。它适合在你已经不满足于看一个数字,而是想知道“这个榜到底怎么跑出来”的时候打开。
- 适合问“这个评测是否透明、是否可复现、是否方法论清楚”
- 也是理解 benchmark 差异的好入口
最实用的读榜顺序
第一步:先看你关心的是文字知识题还是多模态题。前者先看 MMLU,后者先看 MMBench。
第二步:再去 OpenCompass 看这个模型在更多 benchmark 上的横向表现,而不是只盯一个分数。
第三步:如果你开始怀疑“这些分到底怎么来的”,再回头看 HELM 这类更强调透明评测方法的入口。
评测地图:把你贴的这些入口放回各自语境里
这组不是一个维度上的名单。有的是 benchmark,有的是排行榜,有的是评测平台,有的是垂直数据集。悬停某一项时,同类会一起亮起来,比较不容易把“平台”和“题集”混看。
MagicArena
字节推出的视觉生成模型对战平台。
MMLU
大规模多任务语言理解基准,适合看知识与学科题。
Open LLM Leaderboard
Hugging Face 推出的开源大模型排行榜单。
C-Eval
全面的中文基础模型评估套件。
FlagEval
智源研究院推出的 FlagEval(天秤)大模型评测平台。
SuperCLUE
中文通用大模型综合性测评基准。
AGI-Eval
以考试题为主的大模型评测社区与 benchmark 路线。
OpenCompass
上海人工智能实验室推出的大模型开放评测体系。
CMMLU
综合性的大模型中文评估基准。
MMBench
全方位的多模态大模型能力评测体系。
HELM
斯坦福大学推出的大模型评测体系,强调透明方法论。
LMArena
AI 模型评估平台,常被拿来做对战式比较。
LLMEval3
复旦大学 NLP 实验室推出的大模型评测基准。
H2O EvalGPT
H2O.ai 推出的基于 Elo 评级方法的大模型评估系统。
PubMedQA
生物医学研究问答数据集和模型得分排行榜。
主来源
hendrycks/test ↗ · MMBench ↗ · OpenCompass ↗ · HELM ↗ · MMBench 论文 ↗