AI训练模型

阿里巴巴M6

阿里巴巴达摩院推出的超大规模中文预训练模型《M6》

标签:
阿里巴巴 M6 是由 达摩院 研发的超大规模跨模态预训练模型,定位为中文社区首个商业化落地的多模态 AI 大模型,参数规模达十万亿级,具备语言、图像等多模态理解与生成能力。

一、技术特点

  1. 架构与训练
    • 采用 MoE(混合专家)框架,通过专家并行策略提升模型容量,支持万亿级参数规模。
    • 结合 低碳训练技术,仅用 480 卡 V100 GPU 完成训练,相比英伟达、谷歌同类模型能耗降低 80%,效率提升近 11 倍。
  2. 多模态能力
    • 支持 文本生成、图像生成、图文检索 等任务,能理解跨模态数据(如根据 “翻领 Polo 简约开衫” 生成服装设计图)。
    • 通过 对比学习 和 知识蒸馏 优化模型泛化性,减少对标注数据的依赖。

二、核心功能

  1. 行业赋能
    • 电商:生成商品推荐文案、优化搜索排序(如淘宝、支付宝应用)。
    • 智能制造:辅助服装设计(犀牛智造平台)、工业质检。
    • 金融 / 医疗:处理文档分析、跨模态问答。
  2. AIGC 创新
    • 图像生成:支持 30 + 品类设计(服饰、家具等),1 分钟内完成高分辨率创作。
    • 文本生成:自动撰写营销文案、产品描述,结合卖点标签增强可控性。

三、应用场景

  1. 企业智能化
    • 智能设计:替代人工完成服装、家居等产品的快速设计与迭代。
    • 内容生产:批量生成广告图、商品详情页,降低创意成本。
    • 跨模态搜索:通过文本或图片精准匹配商品(如淘宝 “拍照搜同款”)。
  2. 开发者工具
    • 模型微调:提供预训练基础模型,支持垂直领域快速定制(如法律合同分析)。
    • 多模态 API:开放图像生成、文案创作等能力接口,集成至第三方平台。
阿里巴巴 M6 大模型通过多模态能力和低碳训练技术,成为中文社区 AI 应用的重要基础设施,尤其在电商、制造领域表现突出。其轻量化特性降低了企业使用门槛,但复杂任务处理能力仍需进一步优化。未来,M6 可能向更高参数规模、更深度行业解决方案方向拓展。

相关导航