当前位置：首页 > article >正文

智源大模型通用算子库FlagGems四大能力升级持续赋能AI系统开源生态

article 2025/3/4 21:15:35

FlagGems是由智源研究院于2024年6月推出的面向多种AI芯片的开源大模型通用算子库。FlagGems使用Triton语言开发，在Triton生态开源开放的基础上，为多种AI芯片提供开源、统一、高效的算子层生态接入方案。FlagGems沿着统一的中间语言、统一的算子接口和统一的开源算子库方向进行了深入探索与实践。经过半年的研发迭代，FlagGems 取得了诸多新进展。

四大能力升级

提供大模型算子总数超过120个，是目前提供算子数量最多、覆盖广度最大的Triton算子库。
提供多后端支持，目前已有7家厂商的不同 AI 芯片接入 FlagGems，为大模型提供更多算力选择。
实现代码生成技术、运行时优化技术，在开发效率和运行性能等重要指标上都优于同类开源项目。
持续优化多种 AI 芯片性能，加速比显著提升，多数超越原生算子。算子在 Nvidia GPU上整体性能优越，实现平均性能90%以上超越Pytorch CUDA版本。
详细数据如下所示：
- 平台：A100
- 实验时间：11月27日
- 代码版本：commit 41ab8017b4ed93db54358e3cb563eadf1a98f43d
- 采集方法：benchmark数据按算子取加速比均值，全局排序
- 数据意义：加速比为1表示FlagGems与Pytorch aten CUDA性能相当，超过1表示FlagGems性能更优，低于1表示FlagGems性能劣势；黄色条左侧的加速比均大于1，黄色条至红色条之间的加速比约等于1，红色条右侧的加速比小于1。

赋能大模型训练

FlagGems已与智源大模型并行训练及推理框架FlagScale（https://github.com/FlagOpen/FlagScale.git）进行集成使用，该框架能实现不同代际、不同架构芯片之间的异构混合训练，已支持智源内外10多个模型的端到端训练与推理，涵盖稠密与稀疏模型，涉及语言与多模态领域，参数规模到千亿量级，并实现多款芯片的适配。

首次实现FlagGems+FlagScale端到端训练的模型如下：

语言模型 Aquila-135M
- 模型概述
  - Aquila-135M是尺寸最小的中英双语语言大模型。
  - 基于1.66TB的预训练数据和优选的100B Token的退火数据，采用预训练和退火二阶段训练得到。
  - 整个训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现。
- 模型效果
  - 英文指标接近同类型小模型SOTA水平(SmolLM2-135M)，中文评测显著胜出。
  - 采用Triton算子的模型效果与CUDA算子基本一致，证明了Triton算子的正确性。
多模态模型 Aquila-VL-2B
- 模型概述
  - Aquila-VL-2B基于LLaVA-OneVision框架构建，采用Qwen-2.5-1.5B作为语言塔，Siglip400m作为视觉塔，并使用了智源开源的千万级多模态指令数据集Infinity-MM进行多阶段训练。这一创新设计和高质量数据的结合，使得Aquila-VL-2B在同规模模型中取得了领先的性能。
  - 训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现，分别在 Nvidia GPU 和某款非英伟达的全功能GPU训练，证明了 FlagGems 支持多元化AI芯片能力。
- 模型效果
  - 其中 Aquila-VL-2B-Triton 在某款全功能 GPU 千卡规模高效训练，效果与Nvidia A800基本一致。

构建开发者生态

智源致力于构建FlagGems开发者生态，支持多元化AI芯片的合作体系，通过深化核心合作、强化社区建设、提供技术与框架支持、丰富生态建设活动等多维度策略，全面促进AI技术的创新与发展。目前，智源与蚂蚁、腾讯、商汤、火山等大模型应用厂商，以及浪潮、新华三、联想等系统厂商建立合作伙伴关系，并携手百度飞桨、中科加禾、硅基流动等厂商，共同为开发者提供算子及框架支持，此外，智源还联合上海实验室、信通院、电子四院等机构，积极推动制定相关标准，为生态健康发展提供技术的规范性和统一性。这些合作伙伴不仅为生态提供了丰富的资源和技术支持，也为生态的多样性和活力注入了新的血液。

在社区平台建设方面，FlagGems与CSDN深度合作，建立了Triton中文社区门户，汇聚了超过110名社区算子贡献者，通过Github Project看板协作完成项目贡献，并已对外发放25+个开发任务，激励社区开发者的参与和贡献。得到上海人工智能实验室、CSDN、中国互联网协会人工智能工作委员会的共同支持，首次活动线下满员，线上参与5000+人次。智源大会期间举办了Triton算子开发培训，并举办Triton生态活动专场，Triton中国生态Meetup系列活动，展现了生态的广泛影响力。