AI模型评测

FlagEval

智源研究院发布的FlagEval(天秤)大模型评测平台,致力于提供全面、公正的模型评估服务。

标签:
FlagEval(天秤)是由北京智源人工智能研究院(BAAI)开发的大模型评测体系及开放平台,旨在为 AI 基础模型提供科学、公正、开放的评测基准和方法工具。以下是其核心信息整合:

核心功能与特点

  1. 多维评测框架
    • 评测对象:覆盖基础模型、预训练算法、微调 / 压缩算法三大方向。
    • 评测场景:支持自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)、多模态(Multimodal)四大领域及丰富的下游任务。
    • 三维评测体系:通过 “能力 – 任务 – 指标” 框架细粒度评估模型认知边界,例如数学能力、推理能力、代码能力、工具调用等 40 + 维度。
  2. 动态评测与创新方法
    • 动态评测:2024 年推出 “角斗场”(模型对战)和 “辩论场”(逻辑对抗),通过用户偏好反馈和 AI 辅助评估提升评测客观性。
    • 教育对齐:与海淀区教师进修学校合作,以 K12 学科试卷评测模型认知水平,发现模型 “文强理弱” 现象(如英语 / 历史得分超人类平均,理科仍存差距)。
  3. 工具与数据集
    • 开源工具包:包括多语言文图模型评测(MCLIPeval)、文生图细粒度提示库(imageEval)、语义理解评测(C-SEM)等。
    • 权威数据集:构建非公开评测集防止数据泄露,集成原创数据如金融量化交易场景任务,支持企业级应用能力评估。

应用案例与行业地位

  • 评测规模:截至 2025 年,覆盖全球 800 + 开源 / 闭源模型,累计 200 万 + 评测题目,成为大模型领域的权威评测平台。
  • 典型评测结果
    • 云知声山海大模型:客观评测全球第 6(国内第 3),数学能力国内第 2,代码能力国内第 1。
    • 豆包大模型:2024 年 6 月评测中综合排名第二(国产第一),数学与知识运用能力领先 GPT-4o。
  • 合作生态:与百度 PaddlePaddle、天数智芯等企业合作,推动 AI 硬件评测标准化。

技术架构与开源支持

  • FlagOpen 体系:作为 FlagOpen 大模型开源生态的核心组件,集成训练框架(FlagScale)、数据处理工具(FlagData)、高性能算子(FlagAttention)等。
  • 服务化部署:提供flageval-serving PyPI 包,支持模型快速接入评测平台,兼容多种硬件(如英伟达 GPU、昆仑芯)。

相关导航