当前位置：首页 > article >正文

Alluxio Enterprise AI 3.5 发布，全面提升AI模型训练性能

article 2025/2/22 7:04:52

近日，Alluxio 发布 Alluxio Enterprise AI 3.5 版本。该版本凭借仅缓存写入模式 ( Cache Only Write Mode )、高级缓存管理策略以及 Python 的深度集成等创新功能，大幅加速 AI 模型训练并简化基础设施运维，助力企业高效处理海量数据集、优化 AI 工作负载性能。

AI 驱动的工作负载常因海量的数据管理复杂度高导致效率瓶颈以及训练周期延长。Alluxio Enterprise AI 3.5 通过快速优先访问关键数据、无缝集成主流 AI 框架等优化手段来提升性能，从而加速模型开发。

“Alluxio Enterprise AI 最新版本推出多项创新功能，旨在进一步提升 AI 工作负载性能。” Alluxio 创始人兼 CEO 李浩源表示，“当前客户的 AI 模型训练已进入超大规模数据时代，数据集常涉及数十亿文件量级。为此，我们推出 Alluxio Enterprise AI 3.5 来保障训练任务达到峰值性能，同时简化 AI 基础设施的管理和运维。

在这里插入图片描述

全新缓存模式加速 AI Checkpoint

Alluxio 的仅缓存写入模式将 AI 模型训练过程中的 Checkpoint 文件等写操作数据直接写入 Alluxio 缓存层，绕过低效的底层存储系统（UFS），消除 I/O 瓶颈，从而提升写性能。（预览功能）

高级缓存驱逐策略提供细粒度的缓存控制 —— TTL 缓存驱逐策略

管理员可为缓存数据设置有效时间 ( TTL )，基于预设的策略自动驱逐低频访问数据，避免存储资源浪费。

高级缓存驱逐策略提供细粒度的缓存控制 —— 基于优先级的缓存策略

管理员可为关键数据集设置优先级，覆盖默认的 LRU ( 最近最少使用 ) 算法，确保高优先级数据保留在缓存中。这一策略尤其适用于低延迟访问关键数据集的工作负载。

基于 FSSpec 的原生 Python SDK 强化了与主流 AI 框架的集成

Alluxio Python SDK 现已基于 FSSpec 实现了 PyTorch、PyArrow 及 Ray 等主流AI框架的深度集成。该集成通过提供统一的 Python 文件系统接口，使应用程序能够以标准化方式无缝对接各类存储后端。对于采用 Python 开发、特别是承载数据密集型工作负载及 AI 模型训练的应用而言，这一改进大幅简化了 Alluxio Enterprise AI 的技术对接流程，使其能够轻松实现本地与远端存储系统的快速、高频访问。( 预览功能 )

同时，新版本也增加了以下关于 Alluxio S3 API 的关键优化：

支持 HTTP 持久连接 ( HTTP Keep-Alive )

通过复用单一 TCP 连接处理多个请求，减少每次请求新建连接的开销。针对 4KB 大小的 S3 ReadObject 读取操作，该优化可减少约 40% 的请求延迟。

TLS 加密传输

为 Alluxio S3 API 与 Worker 节点间通信提供 TLS 加密支持，确保数据传输安全。

分片上传 ( MPU ) 支持

Alluxio S3 API 现支持将大文件拆分为多个分片并行上传，显著提升大文件上传吞吐量，同时简化上传流程。

在这里插入图片描述

Alluxio 索引服务

该项新的缓存服务针对存储数亿级文件及子目录的超大规模目录结构，显著提升目录列表操作性能。通过从缓存中直接提供目录列表详情，相比查询底层文件系统 ( UFS ) ，可提供 3 至 5 倍的速度提升，有效保障海量元数据场景下的系统可扩展性。( 预览功能 )

UFS 读速率限制器

管理员可通过设置速率限制，来控制单个 Alluxio Worker 从UFS 读取数据时所使用的最大带宽。通过配置 UFS 读取速率限制器，管理员可以在确保系统稳定的同时，实现资源的优化利用。Alluxio 支持对包括 S3、HDFS、GCS、OSS 和 COS 在内的多种 UFS 类型进行速率限制。