CMMLU

CMMLU

一个全面评估大模型中文能力的基准应用，涵盖多项专业领域测试，详见《CMMLU》。

标签：AI模型评测CMMLU

1. CMMLU 的定义

全称：Chinese Massive Multitask Language Understanding（中文大规模多任务语言理解基准）。
定位：专为中文设计的 综合性语言理解评估基准，覆盖 67 个学科领域（如法律、医学、文学），旨在测试模型在复杂中文语境下的多任务推理和知识应用能力。

2. 与 MMLU 的关系

MMLU（原版）：由 Google 等机构开发的英文多任务测试基准，涵盖 57 个学科。
CMMLU 的改进：
- 语言本地化：题目及选项完全基于中文语料和文化背景设计（如成语解析、古诗词理解）。
- 学科扩展：新增 10 个中文特色领域（如中医理论、中国历史）。
- 难度分级：题目分为初中、高中、大学、专业级（原版 MMLU 无明确难度标签）。

3. 核心特点

评估维度：

维度	说明
知识广度	测试模型对多学科基础概念的理解（如 “量子力学中的叠加态指什么？”）
逻辑推理	需要结合上下文进行推断（如法律案例中的责任判定）
文化适配	包含中文特有内容（如 “红楼梦” 角色关系分析）
抗干扰能力	设置干扰选项检验模型抗混淆能力（如相似成语的语义区分）

数据规模：共 11,842 道单选题，部分题目由领域专家人工标注（如医学题由三甲医院医生审核）。

4. 典型应用场景

学术研究：对比不同模型（如 ChatGLM、ERNIE Bot）在中文场景下的性能差距。

例：2023 年评测显示，GPT-4 在 CMMLU 的法律类目准确率为 78%，而 ChatGLM-6B 为 62%。
企业选型：筛选适合特定领域（如教育、客服）的中文模型。

某在线教育平台使用 CMMLU 筛选出在数学题解析准确率最高的开源模型（如 Aquila2-34B）。

5. 使用方式

访问平台：通过 CMMLU 官网或开源代码库（GitHub）获取测试集。
选择测试模式：
- 零样本（Zero-Shot）：直接输入题目，无示例提示。
- 少样本（Few-Shot）：提供少量示例引导模型理解任务。
评估指标：计算 准确率（Accuracy），按学科分类输出结果。

6. 与其他基准的对比

基准名称	语言	任务类型	核心差异
CMMLU	中文	多学科知识理解	深度适配中文文化及专业领域
MMLU	英文	多学科知识理解	原版基准，侧重西方学科体系
C-Eval	中文	通用能力评测	更侧重基础教育科目（如数学、物理）
Chatbot Arena	多语言	对话能力	通过众包投票评估实际交互体验

相关导航

HELM

斯坦福大学推出的大模型评测体系《HELM》旨在全面评估AI模型的性能和可靠性

《MMBench》：全面评估多模态大模型能力的权威评测体系

Chatbot Arena

众包匿名随机对战的LLM基准平台《Chatbot Arena》

复旦大学NLP实验室推出的【LLMEval3】是针对大型语言模型的全面评测基准

PubMedQA是生物医学研究领域的问答数据集和模型得分排行榜，旨在评估和提升AI模型在生物医学文献理解方面的能力。

一个全面的中文基础模型评估套件，旨在提供多维度、系统化的模型性能测评，确保技术应用的准确性和可靠性