LLMEval3 是 复旦大学 NLP 实验室 推出的 大模型专业知识能力评测基准,属于 LLMEval 系列第三期项目(前两期聚焦通用生成能力与专业领域评测)。
- 评测特点:
维度 |
说明 |
题型多样性 |
简答、计算、辨析、写作等(非选择题),更贴近实际应用场景。 |
抽样机制 |
每次评测从题库中随机抽取 1000 题,避免题目重复导致的过拟合。 |
评分基准 |
使用 GPT-4 Turbo 作为自动评分基准(替代传统人工标注),计算绝对与相对得分。 |
可解释性 |
提供分学科得分,支持横向对比不同模型的学科能力差异。 |
- 模型研发:
- 为 AI 公司(如芯思考 AI)提供模型能力短板诊断,指导训练数据优化。
- 示例:某模型在 “医学” 类得分低,可针对性增加医学文献微调数据。
- 学术研究:
- 分析模型在不同学科的知识边界(如 GPT-4 在 “法学” 逻辑推理中的优势)。
- 行业选型:
- 企业根据业务需求选择适配模型(如教育机构优先选用 “教育学” 得分高的模型)。
- 评测成本:
- 调用 GPT-4 Turbo 作为评分基准需较高 API 费用(每千次评测约 $20)。
- 学科偏差:
- 题库以中文教育体系划分学科,可能不适用于其他文化背景的模型评估。
- 动态更新:
- 需定期更新题库与评分基准(如未来可能转向 GPT-5 或 Claude 4)。