AI模型评测

SuperCLUE

中文通用大模型综合性测评基准《SuperCLUE》旨在全面评估和优化大模型的性能和应用效果

标签:

SuperCLUE 是中国首个综合性中文通用大模型测评基准,对标英文领域的 SuperGLUE。由 CLUE 团队于 2023 年推出,旨在系统评估大模型的中文能力。

核心评测维度

  • 基础能力:包括语义理解、生成质量、知识问答等
  • 专业能力:涵盖法律、医学、教育等 10 + 垂直领域
  • 安全性:评估偏见、伦理、隐私保护等风险控制
  • 长文本处理:测试超长文本的理解与生成能力(2024 版新增)

测评体系特点

  • 包含超 100 项细分任务,覆盖超 5000 个典型中文场景
  • 采用动态题库机制,每月更新 30% 测试题目防止过拟合
  • 引入人类专家评估与自动化测评相结合的双重验证机制

相关导航