当前位置: 首页 > article >正文

性能、成本与 POSIX 兼容性比较: JuiceFS vs EFS vs FSx for Lustre

JuiceFS 是一款为云环境设计的分布式高性能文件系统。Amazon EFS 易于使用且可伸缩,适用于多种应用。Amazon FSx for Lustre 则是面向处理快速和大规模数据工作负载的高性能文件系统。

在本文中,我们将通过一系列测试,来评估这三种主流文件系统的性能与成本表现,帮助用户快速了解这些产品。

01 测试环境

测试采用了AWS 的 c5.4xlarge 实例(16核,32GB 内存,10Gbps 网络带宽),涵盖了AWS EFS、JuiceFS 云服务(位于美西2区),以及 AWS FSx for Lustre(1.2 TB、1,200 MB/s配置)。

JuiceFS 客户端测试:配置了 4 个线程,同时测试大文件(1,024 MiB 文件,每块1 MiB 读/写)和小文件(128 KiB 文件,100 个文件读/写)。

02 性能测试与用例

性能测试主要用于评估大文件和小文件的顺序读写性能:

  • 大文件顺序读写:对于需要持续吞吐量的应用非常关键,例如大语言模型(LLM)的数据处理和训练、基因测序、大数据分析、视频流和数据备份;
  • 小文件顺序读写:模拟了在计算机视觉数据处理和模型训练、媒体处理、科学计算等领域常见的工作负载。
    下表显示了吞吐量的测试结果(单位 MiB/s):
测试场景EFSJuiceFSFSx for Lustre
写大文件4751,116594
读大文件5681,016590
写小文件298297
读小文件104160274
  • 大文件:JuiceFS 在读写大文件方面是最快的。
  • 小文件:FSx for Lustre 在读写小文件方面表现最佳。

挂载 JuiceFS 的参数如下:

- buffer-size=1024
- max-upload=200
- max-download=200

03 费用比较

下表列出了这些产品的收费标准(单位 $):

费用项目EFSJuiceFSFSx for Lustre
存储0.30/GB-month0.02/GB-month + S3 0.023/GB-month0.60/GB-month
写访问0.06/GB 0.10/GB cross AZFree same region + S3 API $0.005/1,000 requestsFree same AZ 0.10/GB cross AZ
读访问0.03/GB 0.10/GB cross AZFree same region + S3 API $0.0004/1,000 requestsFree same AZ0.10/GB cross AZ
读小文件104160274
  • AWS EFS 根据存储和访问量收费,对于大规模使用来说相对成本较高;
  • 使用 JuiceFS 产生的费用,包括 S3 和 JuiceFS 两部分,但仍然是一个成本较低方案,尤其是当数据在同一区域内访问时,成本效益尤为突出;
  • FSx for Lustre 提供了高性能,但其存储成本最高。

需要特别注意的是一项隐藏费用,跨可用区(AZ)数据传输费用。对于 AWS EFS 和FSx for Lustre 来说,跨不同可用区的数据传输可能会带来额外的成本。而 JuiceFS 利用了 S3 存储在同一地区内的可免费访问的特性,从而减少了这部分的费用。

04 POSIX 兼容性对比

在 AI 应用中,数据处理流程较为复杂,POSIX 兼容性成为团队考量的重要因素。因此,本次比较的结尾部分将提供这三种文件系统在 POSIX 兼容性方面的详细对比。在我们的另一篇博客文章中,对比了云上七款文件系统的 POSIX 兼容性,其中 JuiceFS 通过了全部 8832 项测试,EFS 未通过 1895 项测试,失败比例为 21%,具体测试项目可以参考这篇博客。

之前的测试未包含 FSx for Lustre, 我们按照上述博客中的测试方法,对 FSx for Lustre 的 POSIX 兼容性再次进行了测试,FSX for Lustre 有 16 项测试未通过, 其中 chown 失败 14 项,utimensat 失败 2 项。

此外,JuiceFS 支持 POSIX ACL、回收站、子目录挂载、子目录配额、数据透明压缩、数据在传输和静态时的加密、跨区域复制等功能。

05 小结

JuiceFS在顺序读/写场景中展现出了显著的性能优势,超越了AWS EFS,与 AWS FSx for Lustre 结果相当,但成本更低提供了。而针对随机读/写操作,通常网络文件系统是相对低效的,在这种情况下,为了获得最佳性能,建议使用高级集群技术,将操作集中在本地,同时将远程过程进行批量处理。

总体而言, JuiceFS 提供了兼顾性能与成本优势的方案,在需要大量顺序读/写工作负载的场景,JuiceFS 是一个不错的选择。

希望这篇内容能够对你有一些帮助,如果有其他疑问欢迎加入 JuiceFS 社区与大家共同交流。


http://www.kler.cn/a/290245.html

相关文章:

  • CompletableFuture // todo
  • 信息系统项目管理-采购管理-采购清单示例
  • 【数据库】四、数据库管理与维护
  • AAAI2023《Controllable Image Captioning via Prompting》
  • 欧拉公式和傅里叶变换
  • 鸿蒙面试 2025-01-10
  • ElasticSearch和Kibana的安全设置以及https设置
  • Vue 3 的性能提升具体体现在哪些方面?
  • 达梦数据库事务管理
  • 深入解析浏览器与Web服务器的通信机制:从URL输入到页面渲染的全过程
  • glsl着色器学习(七)
  • 多线程篇(基本认识 - 锁优化)(持续更新迭代)
  • HCIP笔记12-交换(1)
  • Mysql高级篇(上)—— Mysql架构介绍(二)
  • SprinBoot+Vue图书馆预约与占座微信小程序的设计与实现
  • C++string类相关OJ练习(2)
  • 【32项目】基于stm32f103c8t6的智能拐杖(文章末尾含完整代码)
  • MAC打开IDA Pro意外退出
  • 论文辅助笔记:LP_BERT
  • 【60天备战软考高级系统架构设计师——第一天:软件工程概述】
  • ListBox等控件的SelectedItem,SelectedValue,SelectedValuePath属性详解
  • 0904,关联式容器针对于自定义形式的写法(
  • 华为数据之道-读书笔记
  • 全能AI vs 专业AI:AI模型未来之路与市场潜力
  • Express Response类深度解析:全面掌握属性与方法,提升开发效率
  • Win 11补丁让AMD成亲儿子,性能最高提升35%