Holistic Evaluation of Language Models (HELM) 是由 斯坦福大学基础模型研究中心 (CRFM) 提出的 语言模型综合评估框架,旨在解决传统 LLM 评测的局限性。
-
核心特点:
维度 |
说明 |
场景覆盖 |
覆盖 16 个核心场景(如问答、信息检索、摘要、毒性检测),涉及多领域与英语方言。 |
多维度指标 |
7 大指标:准确率、校准性、鲁棒性、公平性、偏差、毒性、效率。 |
标准化流程 |
统一提示词与评估条件(如 5-shot 提示),确保结果可比性。 |
模型对比 |
已评测 119 个主流模型(截至 2024 年 2 月),包括 GPT-4、Claude、PaLM 等。 |
-
应用场景:
- 研究机构:分析模型在公平性 / 毒性等社会属性的表现(如检测 GPT-4 的性别偏见)。
- 企业选型:根据业务需求筛选模型(例如客服场景优先选择 “鲁棒性” 得分高的模型)。
- 开发者工具:通过HELM Leaderboard对比模型性能。
-
与复旦 LLMEval3 的区别:
评测框架 |
评测重点 |
语言侧重 |
自动化程度 |
HELM (Stanford) |
多维度社会属性 |
英语为主 |
需人工设计提示词 |
LLMEval3 (复旦) |
学科知识能力 |
中文优化 |
全自动随机抽题 |
Helm.ai 是一家专注于 自动驾驶与工业机器人 AI 软件 的科技公司,核心技术为 深度教学(Deep Teaching)。
-
技术亮点:
技术 |
说明 |
Deep Teaching |
无监督学习框架,无需标注数据即可训练神经网络,降低自动驾驶开发成本。 |
多场景适应 |
支持不同地理环境、天气条件(如雨雪 / 夜间驾驶)的感知模型泛化。 |
生成式 AI 工具 |
Gensim-2/Vidgen-2 生成高仿真驾驶场景,替代传统路测。 |
-
融资与商业化:
- C 轮融资 5500 万美元(2023 年 8 月),总融资额达 1.02 亿美元,投资方包括本田、固特异风投。
- 合作案例:为 OEM 厂商提供 ADAS 至 L4 级自动驾驶的端到端软件栈,覆盖采矿 / 工业机器人场景。
-
技术优势对比:
传统方案 |
Helm.ai 方案 |
依赖人工标注与模拟测试 |
无监督学习 + 生成式 AI 降低数据成本 |
单一场景优化(如城市道路) |
跨地理 / 天气条件的统一模型 |