SuperCLUE 是中国首个综合性中文通用大模型测评基准,对标英文领域的 SuperGLUE。由 CLUE 团队于 2023 年推出,旨在系统评估大模型的中文能力。
核心评测维度
- 基础能力:包括语义理解、生成质量、知识问答等
- 专业能力:涵盖法律、医学、教育等 10 + 垂直领域
- 安全性:评估偏见、伦理、隐私保护等风险控制
- 长文本处理:测试超长文本的理解与生成能力(2024 版新增)
测评体系特点
- 包含超 100 项细分任务,覆盖超 5000 个典型中文场景
- 采用动态题库机制,每月更新 30% 测试题目防止过拟合
- 引入人类专家评估与自动化测评相结合的双重验证机制