FlagEval(天秤)是由北京智源人工智能研究院(BAAI)开发的大模型评测体系及开放平台,旨在为 AI 基础模型提供科学、公正、开放的评测基准和方法工具。以下是其核心信息整合:
-
多维评测框架
- 评测对象:覆盖基础模型、预训练算法、微调 / 压缩算法三大方向。
- 评测场景:支持自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)、多模态(Multimodal)四大领域及丰富的下游任务。
- 三维评测体系:通过 “能力 – 任务 – 指标” 框架细粒度评估模型认知边界,例如数学能力、推理能力、代码能力、工具调用等 40 + 维度。
-
动态评测与创新方法
- 动态评测:2024 年推出 “角斗场”(模型对战)和 “辩论场”(逻辑对抗),通过用户偏好反馈和 AI 辅助评估提升评测客观性。
- 教育对齐:与海淀区教师进修学校合作,以 K12 学科试卷评测模型认知水平,发现模型 “文强理弱” 现象(如英语 / 历史得分超人类平均,理科仍存差距)。
-
工具与数据集
- 开源工具包:包括多语言文图模型评测(MCLIPeval)、文生图细粒度提示库(imageEval)、语义理解评测(C-SEM)等。
- 权威数据集:构建非公开评测集防止数据泄露,集成原创数据如金融量化交易场景任务,支持企业级应用能力评估。
- 评测规模:截至 2025 年,覆盖全球 800 + 开源 / 闭源模型,累计 200 万 + 评测题目,成为大模型领域的权威评测平台。
- 典型评测结果
- 云知声山海大模型:客观评测全球第 6(国内第 3),数学能力国内第 2,代码能力国内第 1。
- 豆包大模型:2024 年 6 月评测中综合排名第二(国产第一),数学与知识运用能力领先 GPT-4o。
- 合作生态:与百度 PaddlePaddle、天数智芯等企业合作,推动 AI 硬件评测标准化。
- FlagOpen 体系:作为 FlagOpen 大模型开源生态的核心组件,集成训练框架(FlagScale)、数据处理工具(FlagData)、高性能算子(FlagAttention)等。
- 服务化部署:提供
flageval-serving
PyPI 包,支持模型快速接入评测平台,兼容多种硬件(如英伟达 GPU、昆仑芯)。