C-Eval 是一个全面的中文基础模型评估套件,由清华大学、北京理工大学等高校的研究团队联合开发。
- 学科覆盖广:涵盖 52 个学科,包括 STEM(科学、技术、工程、数学)、人文社科等领域。
- 难度分级:分为初中、高中、大学、专业四个难度级别,可评估模型在不同知识深度的表现。
- 双语设计:题目以中文呈现,部分学科提供英文版本,便于跨语言能力对比。
- 侧重推理:题目需多步推理,避免单纯记忆性测试。
- 知识广度:检验模型对多学科基础概念的掌握。
- 逻辑能力:测试复杂问题拆解与推理能力。
- 中文理解:评估中文语境下的语义解析准确性。
- 验证集(共 1.3 万题):用于模型训练中的快速验证。
- 测试集(共 1.3 万题):最终评估使用,需通过官方提交结果以确保公平性。
- 学术研究:对比不同模型在中文领域的性能差异。
- 工业优化:指导企业针对薄弱学科优化模型。
- 教育领域:辅助评估 AI 在教育场景中的知识可靠性。