当前位置: 首页 > article >正文

400G智算网络助力知名自动驾驶企业算力训练提效

根据Gartner的最新趋势预测,自动驾驶技术正迅速发展,预计在未来几年内将带来显著的商业效益,特别是在决策智能和边缘人工智能领域。目前,一家领军企业正积极拥抱基于大模型的数字化转型之路,作为自动驾驶领域的佼佼者,该公司正积极响应这一趋势。公司专注于智能座舱、自动驾驶技术以及网联服务,不断研发高度集成的智能硬件和前沿的软件算法,为消费者打造智能高效的综合出行方案。

当前,企业迫切需要升级自己的智算中心,以满足日益增长的算力需求。这一中心将服务于公司内部的大型模型训练,并为汽车行业的客户提供全面的自动驾驶模型解决方案。

智算网络需要满足算力训练提效需求

为了确保自动驾驶智算中心的顺利搭建和高效运作,必须综合考量硬件的高可靠性、组网方案的成本效益以及网络带宽的可扩展性。该企业提出了三项核心需求:首先,鉴于新能源汽车市场的激烈竞争,方案必须能够尽可能缩短建设周期,以快速相应市场变化。其次智算中心建设是一个长期且成本高昂的投入,因此成本控制至关重要,方案必须确保成本效益最大化。最后,考虑到智算中心的快速迭代特性,必须关注到智算网络的扩展能力,以满足企业未来业务的持续增长和发展需求。

具体来说,在硬件配置上要选用高性能、高可靠性的服务器、存储设备、网络设备以及专业的GPU集群,以满足自动驾驶算法训练对计算能力的严苛要求。在商务成本上和训练效率的双重考量下,对现有的InfiniBand(IB)网络方案进行优化至关重要,这需要全面评估IB网络方案与其他网络方案,确保在满足性能需求的同时,最大限度地降低成本。同时,为了应对未来的技术升级和扩容需求,必须预留足够的空间和容量,以确保智算中心的技术不会迅速变得过时,从而保持其长期的竞争力和市场适应性。

如何构建高速高效的自动驾驶智算中心

经过充分的验证讨论与测试,新华三智算网络解决方案能够无缝对接客户的现有系统,并在性能、可靠性和可扩展性方面媲美IB网络的标准。因此,在众多厂商中脱颖而出。

整体智算网络方案采用存算分离的双平面网络架构,该方案核心组成包含——

  • 计算网络:由42台S9825-64D数据中心交换机组成400G无损计算网;
  • 存储网络:由12台S9820-64H数据中心交换机组成100G无损存储网,支撑17个节点UniStor CX5036G6 分布式高性能并行存储。

方案采用RoCE以太网络架构,并结合创新的二层盒盒架构设计,有效满足了首期网络建设中100台高性能GPU服务器的需求,同时也预留未来扩容的能力。更成熟、效率更好的RoCE技术架构,大幅了缩短部署周期、降低训练时间,并降低成本支出,给客户更高的投资回报率。

S9825-64D数据中心交换机吞吐量测试
S9825-64D数据中心交换机吞吐量测试

在双平面网络架构的设计中,转发平面专责网络数据的传输工作,而控制平面则承担网络管理和控制信息的处理。这种架构通过两个平面的相互备份,极大提升了网络的可靠性与安全性。一旦其中一个平面发生故障,另一个平面能够立即接管其功能,确保网络的持续运行和稳定性。与此相对,单平面网络架构将所有网络功能集中在单一平面上,没有实现控制和数据转发的分离,因此在灵活性和安全性方面存在局限。显然,双平面网络架构在保障网络稳定性和安全性方面,具有显著的优势。

模型训练效率提升11.1%,加快企业大模型开发

新华三提供的RoCE智算网络方案保持了与IB网络相当的计算性能,能够让企业处理更庞大的数据量,其低延迟和高吞吐量特性,显著缩短了企业自动驾驶模型训练时间减少了10%,同时将模型训练效率提升11.1%,并加速了业务处理速度。

400G RoCE网络,为企业未来的带宽升级提供了便利。RoCE基于以太网技术,拥有成熟且广泛的生态系统,这有利于未来技术的升级和方案的演进。预计在未来两年内,数据处理能力将提升50%,而无需进行大规模的网络架构更改。此外,预计在三年内,通过节省的运营成本和提升的业务效率,在 RoCE网络上的投资将得到回收,投资回报率有望提高10%。

从部署效率角度,尽管RoCE网络同样需要手工配置,但由于以太网技术的普及和成熟,部署时间平均缩短了15%,减少了停机时间和人力成本,从而间接节约了综合成本。与IB网络相比,RoCE通常具有更低的设备和维护成本,这在控制整体商务成本方面非常有利。由于以太网组件的普遍性,替换和维护更为经济,从项目整体核算来看,RoCE网络的维护成本比IB网络低约20%

显然,400G智算网络的引入不仅提升了自动驾驶企业算力训练的效率,还为企业的未来发展提供了强大的技术支持和成本优势。随着技术的不断进步和市场需求的不断扩大,该企业有望在全球自动驾驶市场中占据更加重要的地位,为智能出行的未来贡献力量。这一变革不仅标志着自动驾驶技术的新纪元,也为整个汽车行业的发展指明了方向。通过400G智算网络的助力,企业将能够更快地开发和部署先进的自动驾驶模型,为实现更安全、更智能的出行体验奠定坚实的基础。


http://www.kler.cn/a/428271.html

相关文章:

  • 进程控制的学习
  • 双足机器人开源项目
  • iic、spi以及uart
  • Couchbase UI: Dashboard
  • 笔灵ai写作技术浅析(一)
  • Vue 引入及简单示例
  • 关于springBoot+vue项目中配置SSL证书问题
  • JavaScrip面向对象-构造器和对象原型
  • Java使用Word模板导出PDF及PDF盖章
  • CSRF跨站请求伪造
  • IDEA关联Tomcat服务启动教程及普通JavaEE工程到Maven和Web工程启动的教程
  • [2023年12月17日]第15届蓝桥杯青少组stema选拔赛C++中高级(第二子卷、编程题(3))
  • 超标量处理器设计笔记(6)TLB缺失、替换、写入
  • 基于51单片机64位病床呼叫系统设计( proteus仿真+程序+设计报告+原理图+讲解视频)
  • MATLAB 建筑顶面面积计算(95)
  • 非常简单实用的前后端分离项目-仓库管理系统(Springboot+Vue)part 4
  • SQLCipher:SQLite加密工具的实用指南
  • Hive 的 Hook 机制 完全解析
  • 论文概览 |《Urban Analytics and City Science》2023.03 Vol.50 Issue.3
  • 【MySql】navicat连接报2013错误
  • 子矩阵最大累加和
  • selenium+python实现12306自动化抢火车票(二)
  • 调度算法(2)
  • Spring Boot性能提升:实战案例分析
  • Android WebView加载本地html文件
  • python学习笔记—1—基础环境配置和字面量