AI训练模型

MMLU

大规模多任务语言理解基准(MMLU)评估模型在多种任务中的综合语言理解能力

标签:

1. 基本定义与背景

  • 全称:Massive Multitask Language Understanding(大规模多任务语言理解)。
  • 开发团队:由加州大学伯克利分校的研究团队于 2020 年 9 月提出,现为业界公认的大模型语言理解能力评估基准。
  • 目的:通过覆盖多学科的开放式问题,评估大型语言模型(LLMs)在知识广度、深度理解和复杂推理任务中的表现。

2. 核心特点

(1) 任务覆盖广泛

  • 学科范围:涵盖 57 个学科,包括数学、美国历史、计算机科学、法律、医学、伦理等,难度从基础到专业级。
  • 任务类型:以多项选择题为主(如 4 选 1),部分改进版本(如 MMLU-Pro)扩展至 10 选项以提高难度。

(2) 评估方式

  • 测试模式:支持 ** 零样本(Zero-shot)少样本(Few-shot)** 测试:
    • 零样本:模型仅依赖预训练知识回答问题。
    • 少样本:模型参考少量示例(如 5 个)生成答案。
  • 评分标准:以准确率(0-100%)衡量模型在全部任务中的综合表现。

(3) 数据集构成

  • 数据量:共 15,908 个问题,分为开发集(5 问题 / 学科)、验证集(1,540 题)和测试集(14,079 题)。
  • 语言:主要为英语,但有多语言扩展版本(如 MMMLU)。

3. 模型性能与标杆

  • 早期模型:较小模型(如 GPT-3)准确率约 25%(随机水平),提升至 43.9%(少样本)。
  • 当前 SOTA(截至 2025 年):
    • GPT-4:5-shot 准确率 86.4%,接近人类专家水平(89.8%)。
    • Claude-3 Opus:在跨学科推理中表现优异,综合得分 83%。
  • 挑战:模型在数学、物理、法律等需复杂推理的学科中表现较弱。

4. 应用场景

  • 教育技术:评估 AI 教育工具的多语言理解和知识覆盖能力,支持自适应学习系统。
  • 机器翻译:优化翻译模型在专业术语(如法律、医学)中的准确性。
  • 跨文化交流:减少文化偏见,提升多语言场景下的沟通可靠性。
  • 商业领域:扩展至在线购物评测(如Shopping MMLU),评估商品推荐、用户行为理解等能力。

相关导航