当前位置: 首页 > article >正文

GPU的使用寿命可能只有1~3年

在当今高度依赖人工智能(AI)和高性能计算(HPC)的时代,数据中心的图形处理单元(GPU)成为了关键的计算资源。然而,根据Tech Fund援引的一位未具名的Alphabet高级专家的说法,这些昂贵的GPU在数据中心的使用寿命可能只有短短的一到三年时间。

图片

在现代数据中心里,GPU主要负责AI训练和推理等计算密集型任务。由于这些任务要求极高,GPU经常处于高负荷状态,这导致其磨损速度比其他硬件组件更快。尤其是对于云计算服务提供商(CSP)而言,其数据中心中的GPU利用率介于60%至70%之间,这种高利用率会进一步缩短GPU的预期寿命。

根据这位据称来自Alphabet的主要生成式AI架构师的说法,当GPU处于上述的高利用率状态时,其预期寿命一般在一年到两年之间,最长不超过三年。这主要是因为现代数据中心GPU为了支持AI和HPC应用,通常需要功耗达到几百瓦,这对于微小的硅片来说是一种实质性的压力。

据这位发言者所说,延长GPU寿命的一种方法是降低其利用率。然而,这样做会减缓GPU的折旧速度,进而影响资本回报速度,这显然不是商业上的最优选择。因此,大多数云计算服务提供商更倾向于让其GPU维持在一个较高的利用率水平上运作。

今年早些时候,Meta公司发布的一项研究表明,他们使用由16,384块Nvidia H100 80GB GPU组成的集群来训练Llama 3 405B模型。尽管集群的模型浮点运算利用率(MFU)为约38%(使用BF16精度),但在54天的预训练快照期间,总共发生了419次未预见的中断事件,其中有148次(占比30.1%)是由各种GPU故障(包括NVLink故障)引起的,另外72次(17.2%)则是由HBM3内存故障造成的。

图片

Meta的研究结果显示,H100 GPU在故障率方面似乎表现不错。如果GPU及其内存的故障率与Meta的统计相符,那么这些处理器的年度故障率约为9%,而在三年内的年度故障率则大约为27%。不过,考虑到GPU在服役一年后可能会出现更频繁的故障,这一估计可能过于乐观。

随着AI和HPC应用的不断发展,数据中心对GPU的需求只会越来越大。然而,GPU的短寿命周期给数据中心的运维带来了挑战。未来,寻找有效的方法来管理和延长GPU的使用寿命,以及开发更加耐用的GPU架构,将是业界面临的重要课题。与此同时,数据中心运营商也需要重新评估其硬件更新策略,以应对不断变化的技术需求和日益增长的计算负载。


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • PCIe SSD在温变环境的稳健性技术剖析

  • 2024 NAND领域的机遇与挑战

  • SSD在低地球轨道卫星应用中的挑战

  • CXL内存技术:有效提高GPU利用率

  • 这可能是最清晰的AI存储数据流动图解

  • DWPD指标:为何不再适用于大容量SSD?

  • 突破内存墙:DRAM的过去、现在与未来

  • E1.S接口如何解决SSD过热问题?

  • ZNS SSD是不是持久缓存的理想选择?

  • 存储正式迈入超大容量SSD时代!

  • FMS 2024: 带来哪些存储技术亮点?

  • IEEE报告解读:存储技术发展趋势分析

  • 什么?陶瓷也可以用来存储数据了?

  • 都说固态硬盘寿命短,那么谁把使用寿命用完了吗?

  • 内存原生CRAM技术将会颠覆计算存储的未来?

  • 浅析SSD性能与NAND速率的关联

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!


http://www.kler.cn/news/368702.html

相关文章:

  • 【Orange Pi 5 Linux 5.x 内核编程】-字符设备文件与操作(IOCTL)
  • 洞察前沿趋势!2024深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛技术公开课指南
  • 深入了解 Android 中的命名空间:`xmlns:tools` 和其他常见命名空间
  • 大模型落地,要追求极致的务实主义
  • spygalss cdc 检测的bug(二)
  • 嵌入式C语言字符串具体实现
  • 基于去哪儿旅游出行服务平台旅游推荐网站【源码+安装+讲解+售后+文档】
  • Linux 重启命令全解析:深入理解与应用指南
  • 51单片机完全学习——红外遥控
  • LeetCode——最小差值
  • RTMP视频推流EasyDSS平台重装服务器系统后无法启动是什么原因?
  • [LeetCode] 47. 全排列Ⅱ
  • 如何成为一个优秀的大数据开发工程师?
  • 基于SpringBoot的流浪动物管理系统设计与实现
  • Java面试题十三
  • 【Linux网络】Linux网络基础入门:初识网络,理解网络协议
  • 微知-Lecroy力科的PCIe协议分析仪型号命名规则(PCIe代,金手指lanes数量)
  • SQL Server 当前日期及其未来三天的日期
  • 【pytest中同一个用例多次执行生成一个测试报告的方法】
  • 学习FPGA需要掌握哪些语言
  • 线程支持库(C++11)
  • 【JavaEE初阶】网络原理-深入理解网络通信中协议的概念
  • 20241023软考架构-------软考案例5答案
  • 相关Coverage Path Planning的论文整理
  • C#的访问修饰符
  • Python基于TensorFlow实现简单循环神经网络分类模型(SimpleRNN分类算法)项目实战