Open LLM Leaderboard 是评估开源大语言模型(LLM)性能的核心平台,主要由 Hugging Face 和学术团队维护。
-
Hugging Face 官方榜单
- 链接:Open LLM Leaderboard
- 特点:
- 评估模型在ARC(科学推理)、Hellaswag(常识推理)、MMLU(多任务理解)、TruthfulQA(真实性)等六大基准上的表现。
- 支持按模型类型、架构、精度等筛选。
- 2025 年领先模型:
- Llama 3-70B-instruct(Meta)
- Solar-10.7B-v1.0(Upstage)
- Falcon-3-10B(TensoPolis)
-
VILA-Lab 的开放式问题评测
- GitHub 项目:Open-LLM-Leaderboard
- 特点:
- 摒弃传统多选题(MCQ),改用开放式问题(OSQ),避免选项偏差和随机猜测问题。
- 使用GPT-4 作为自动评估器,对比模型回答与标准答案的匹配度。
- 2025 年排名(大规模模型):
- GPT-4o(综合得分 70.15)
- Claude 3 Opus(62.53)
- Mistral Large(60.84)
- 从多选题转向开放式问题
学术论文(arXiv:2406.07545)指出,传统 MCQ 存在 “选项偏差” 和 “随机猜测” 问题,开放式评测能更真实反映模型能力。
- 自动化评估流程
- 模型需在统一 GPU 集群上测试,确保公平性。
- 结果涵盖自然语言理解、生成、代码和逻辑推理等多维度。
基准名称 |
评估重点 |
数据集来源 |
ARC |
科学问题推理能力 |
小学至初中科学考题 |
Hellaswag |
常识推理与场景延续合理性 |
对抗性筛选的挑战性问题 |
MMLU |
跨领域多任务理解(人文 / 科学) |
57 个学科的多选题 |
TruthfulQA |
回答的真实性与准确性 |
易引发误导的问题集 |
WinoGrande |
代词指代消解 |
复杂语境下的 Winograd Schema |
GSM8K |
多步骤数学问题解决 |
8500 道小学数学题 |
- 趋势:
- 更强调真实性(TruthfulQA)和开放式生成能力,减少对结构化测试的依赖。
- 小模型(如 Gemma-2B、Qwen-1.8B)在特定领域(如代码生成)表现突出。
- 实用工具: