LLaMA(Large Language Model Meta AI)是由 Meta AI(原 Facebook AI)于 2023 年 2 月发布的开源大型语言模型,主要用于自然语言处理(NLP)研究。
-
参数规模
提供四种版本:70 亿、130 亿、330 亿和 650 亿参数,支持从基础任务到复杂推理的多种应用。
-
训练数据
使用约 1.4 万亿 token 的多语言文本(含英文、中文、法语等),涵盖书籍、网页、代码等多样化内容。
-
性能表现
在多种基准测试(如 LAMBADA、MMLU)中表现优异,接近或超越 GPT-3 等同期模型,且在代码生成、数学推理等任务中展现潜力。
- 文本生成:支持创意写作、摘要生成等。
- 对话系统:通过微调可构建聊天机器人(如 Alpaca、Vicuna)。
- 代码开发:辅助代码生成与调试。
- 多语言任务:跨语言理解与翻译。
- 基础模型:LLaMA 开源后,社区基于其架构开发了多种改进版本,如:
- Alpaca:通过 RLHF(人类反馈强化学习)提升对话能力。
- Vicuna:针对多轮对话优化,性能接近 GPT-4。
- 研究推动:降低了大模型研究门槛,促进开源模型的技术迭代。
- 训练成本:需大规模算力支持(如 650 亿参数版本需超 2000 张 A100 GPU)。
LLaMA 的开源发布对 AI 领域产生了深远影响,加速了大模型技术的普及与创新,同时也引发了关于模型伦理、可解释性等议题的讨论。