当前位置: 首页 > article >正文

Alluxio Enterprise AI 3.5 发布,全面提升AI模型训练性能

近日,Alluxio 发布 Alluxio Enterprise AI 3.5 版本。该版本凭借仅缓存写入模式 ( Cache Only Write Mode )、高级缓存管理策略以及 Python 的深度集成等创新功能,大幅加速 AI 模型训练并简化基础设施运维,助力企业高效处理海量数据集、优化 AI 工作负载性能。

AI 驱动的工作负载常因海量的数据管理复杂度高导致效率瓶颈以及训练周期延长。Alluxio Enterprise AI 3.5 通过快速优先访问关键数据、无缝集成主流 AI 框架等优化手段来提升性能,从而加速模型开发。

“Alluxio Enterprise AI 最新版本推出多项创新功能,旨在进一步提升 AI 工作负载性能。” Alluxio 创始人兼 CEO 李浩源表示,“当前客户的 AI 模型训练已进入超大规模数据时代,数据集常涉及数十亿文件量级。为此,我们推出 Alluxio Enterprise AI 3.5 来保障训练任务达到峰值性能,同时简化 AI 基础设施的管理和运维。

在这里插入图片描述

全新缓存模式加速 AI Checkpoint

Alluxio 的仅缓存写入模式将 AI 模型训练过程中的 Checkpoint 文件等写操作数据直接写入 Alluxio 缓存层,绕过低效的底层存储系统(UFS),消除 I/O 瓶颈,从而提升写性能。( 预览功能 )

高级缓存驱逐策略提供细粒度的缓存控制 —— TTL 缓存驱逐策略

管理员可为缓存数据设置有效时间 ( TTL ),基于预设的策略自动驱逐低频访问数据,避免存储资源浪费。

高级缓存驱逐策略提供细粒度的缓存控制 —— 基于优先级的缓存策略

管理员可为关键数据集设置优先级,覆盖默认的 LRU ( 最近最少使用 ) 算法,确保高优先级数据保留在缓存中。这一策略尤其适用于低延迟访问关键数据集的工作负载。

基于 FSSpec 的原生 Python SDK 强化了与主流 AI 框架的集成

Alluxio Python SDK 现已基于 FSSpec 实现了 PyTorch、PyArrow 及 Ray 等主流AI框架的深度集成。该集成通过提供统一的 Python 文件系统接口,使应用程序能够以标准化方式无缝对接各类存储后端。对于采用 Python 开发、特别是承载数据密集型工作负载及 AI 模型训练的应用而言,这一改进大幅简化了 Alluxio Enterprise AI 的技术对接流程,使其能够轻松实现本地与远端存储系统的快速、高频访问。( 预览功能 )

同时,新版本也增加了以下关于 Alluxio S3 API 的关键优化:

支持 HTTP 持久连接 ( HTTP Keep-Alive )

通过复用单一 TCP 连接处理多个请求,减少每次请求新建连接的开销。针对 4KB 大小的 S3 ReadObject 读取操作,该优化可减少约 40% 的请求延迟。

TLS 加密传输

为 Alluxio S3 API 与 Worker 节点间通信提供 TLS 加密支持,确保数据传输安全。

分片上传 ( MPU ) 支持

Alluxio S3 API 现支持将大文件拆分为多个分片并行上传,显著提升大文件上传吞吐量,同时简化上传流程。

在这里插入图片描述

Alluxio 索引服务

该项新的缓存服务针对存储数亿级文件及子目录的超大规模目录结构,显著提升目录列表操作性能。通过从缓存中直接提供目录列表详情,相比查询底层文件系统 ( UFS ) ,可提供 3 至 5 倍的速度提升,有效保障海量元数据场景下的系统可扩展性。( 预览功能 )

UFS 读速率限制器

管理员可通过设置速率限制,来控制单个 Alluxio Worker 从UFS 读取数据时所使用的最大带宽。通过配置 UFS 读取速率限制器,管理员可以在确保系统稳定的同时,实现资源的优化利用。Alluxio 支持对包括 S3、HDFS、GCS、OSS 和 COS 在内的多种 UFS 类型进行速率限制。

支持异构 Worker 节点

Alluxio 现支持具有异构资源配置 ( CPU、内存、磁盘和网络 )的集群 Worker 节点。该增强功能为管理员在配置集群时提供了更大的灵活性,可实现更好的资源分配。

了解更多 Alluxio Enterprise AI 3.5 信息:
https://documentation.alluxio.io/ee-ai-cn

在这里插入图片描述


http://www.kler.cn/a/552817.html

相关文章:

  • Docker 多阶段构建:优化镜像大小
  • C#_子窗体嵌入父窗体
  • YOLOv11-ultralytics-8.3.67部分代码阅读笔记-annotator.py
  • 【第3章:卷积神经网络(CNN)——3.7 数据增强与正则化技术】
  • go 树形结构转为数组
  • win11 labelme 汉化菜单
  • matlab质子磁力仪传感器线圈参数绘图
  • 确保设备始终处于最佳运行状态,延长设备的使用寿命,保障系统的稳定运行的智慧地产开源了
  • Effective C++读书笔记——item52(如果编写了 placement new,就要编写 placement delete)
  • Spring Security,servlet filter,和白名单之间的关系
  • 【前端ES】ECMAScript 2023 (ES14) 引入了多个新特性,简单介绍几个不为人知但却好用的方法
  • 【Python爬虫(14)】解锁Selenium:Python爬虫的得力助手
  • npm、yarn、pnpm 的异同及为何推荐 pnpm
  • DeepSeek AI 完全使用指南:从入门到精通
  • Node.js 版本与 npm 的关系及版本特性解析:从开源项目看演进
  • 腿足机器人之九- SLAM基础
  • 跳板机和堡垒机的区别
  • HDFS应用-后端存储cephfs-java-API
  • 论文阅读 DOES END-TO-END AUTONOMOUS DRIVING REALLY NEED PERCEPTION TASKS?
  • 上位机知识篇---与、或、移位操作(、|、>><<)