AI模型评测

CMMLU

一个全面评估大模型中文能力的基准应用,涵盖多项专业领域测试,详见《CMMLU》。

标签:

1. CMMLU 的定义

  • 全称Chinese Massive Multitask Language Understanding(中文大规模多任务语言理解基准)。
  • 定位:专为中文设计的 综合性语言理解评估基准,覆盖 67 个学科领域(如法律、医学、文学),旨在测试模型在复杂中文语境下的多任务推理和知识应用能力。

2. 与 MMLU 的关系

  • MMLU(原版):由 Google 等机构开发的英文多任务测试基准,涵盖 57 个学科。
  • CMMLU 的改进
    • 语言本地化:题目及选项完全基于中文语料和文化背景设计(如成语解析、古诗词理解)。
    • 学科扩展:新增 10 个中文特色领域(如中医理论、中国历史)。
    • 难度分级:题目分为初中、高中、大学、专业级(原版 MMLU 无明确难度标签)。

3. 核心特点

  • 评估维度
    维度 说明
    知识广度 测试模型对多学科基础概念的理解(如 “量子力学中的叠加态指什么?”)
    逻辑推理 需要结合上下文进行推断(如法律案例中的责任判定)
    文化适配 包含中文特有内容(如 “红楼梦” 角色关系分析)
    抗干扰能力 设置干扰选项检验模型抗混淆能力(如相似成语的语义区分)
  • 数据规模:共 11,842 道单选题,部分题目由领域专家人工标注(如医学题由三甲医院医生审核)。

4. 典型应用场景

  • 学术研究:对比不同模型(如 ChatGLM、ERNIE Bot)在中文场景下的性能差距。
    例:2023 年评测显示,GPT-4 在 CMMLU 的法律类目准确率为 78%,而 ChatGLM-6B 为 62%。
  • 企业选型:筛选适合特定领域(如教育、客服)的中文模型。
    某在线教育平台使用 CMMLU 筛选出在数学题解析准确率最高的开源模型(如 Aquila2-34B)。

5. 使用方式

  1. 访问平台:通过 CMMLU 官网 或开源代码库(GitHub)获取测试集。
  2. 选择测试模式
    • 零样本(Zero-Shot):直接输入题目,无示例提示。
    • 少样本(Few-Shot):提供少量示例引导模型理解任务。
  3. 评估指标:计算 准确率(Accuracy),按学科分类输出结果。

6. 与其他基准的对比

基准名称 语言 任务类型 核心差异
CMMLU 中文 多学科知识理解 深度适配中文文化及专业领域
MMLU 英文 多学科知识理解 原版基准,侧重西方学科体系
C-Eval 中文 通用能力评测 更侧重基础教育科目(如数学、物理)
Chatbot Arena 多语言 对话能力 通过众包投票评估实际交互体验

相关导航