企业内训|华为昇腾智算中心深度技术研修-某智算厂商研发中心
课程概述
本课程《华为昇腾智算中心深度技术研修》是TsingtaoAI为某智算厂商研发中心的技术团队提供深入的技术培训,聚焦于华为昇腾智算中心的建设与优化。通过系统化的课程内容安排,学员将学习和掌握智算集群的建设、交付与优化,华为昇腾AI计算平台的核心技术,如昇腾算子开发、HCCL集合通信,以及相关的AI开发框架与工具链的使用。课程内容丰富,包括理论知识讲解、实际案例分析和实战演练,旨在帮助学员快速掌握并应用相关技术于实际工作中。
内训目标
提升智算集群建设与优化能力:掌握昇腾智算集群的建设流程、设备选型策略、硬件与软件环境的验收标准,并通过案例分析学习如何优化集群的交付质量。
深入理解昇腾技术栈的核心技术:通过对昇腾算子开发和HCCL集合通信的深入学习,了解其在大规模AI应用中的关键角色,掌握其开发与调试方法及性能优化技巧。
掌握AI开发框架和工具链的应用:学习并实操华为AI开发框架(如MindX、ModelArts)和工具链(如CCAE与NCE系统)的使用,熟悉分布式并行训练和AI模型优化的策略和方法。
课程准备及说明
授课前1周,讲师会对授课需要的硬件资源和软件环境给出详细的说明和教程文档。学员根据环境要求和教程文档提前准备好相应的硬件资源和软件环境。
课时安排
一共4天,每天6-7小时。
课程大纲方案
第一天:智算集群建设与交付
上午:智算集群建设交付与设备选型
- 昇腾智算集群建设的概述
- 华为昇腾的技术架构与核心优势。
- 昇腾智算集群的基本概念与设计原则。
- 设备选型与硬件配置
- 根据业务需求选择昇腾集群设备的关键指标。
- 设备选型的常见策略与最佳实践。
- 结合具体案例解析设备选型的决策流程。
- 基于昇腾的智算中心建设交付案例
- 案例1:某大型企业的昇腾智算中心建设过程分析。
- 案例2:智能制造行业中的昇腾智算集群应用实例。
- 实战演练:模拟设计一个适用于特定业务需求的昇腾集群。
下午:交付验收标准与评审注意事项
- 智算集群的交付标准
- 集群硬件验收标准:硬件配置、性能测试。
- 集群软件验收标准:软件环境、操作系统、AI框架适配性。
- 集群整体验收流程与案例解析。
- 交付验收评审注意事项
- 常见评审问题与解决方案。
- 实战演练:设计交付验收的标准流程与文档准备。
- 典型案例讲解
- 案例分析:交付过程中的常见问题及解决思路。
- 小组讨论:如何优化交付验收流程,提升项目交付质量。
第二天:智算中心测试方案与标准
上午:智算集群整体测试方案
- 智算集群软硬件测试方法
- 集群硬件测试:CPU、GPU、内存、网络等组件的性能测试。
- 集群软件测试:操作系统、驱动、AI框架的兼容性与性能测试。
- 结合案例的实际操作:在昇腾环境中进行测试。
- 模型部署与运行操作实践
- 单机多卡运行:单节点多GPU的部署与测试。
- 多机多卡运行:跨节点的分布式部署与运行。
- 实战演练:在昇腾环境中部署并运行一个AI模型,测试其性能。
下午:智算集群交付测试标准
- 基线功能性能测试
- 基线功能测试的定义与重要性。
- 性能测试全流程:从准备、执行到结果分析。
- 实战演练:设计并执行一个基线功能性能测试。
- 模型测试全流程实操
- 单机测试:从模型加载、运行到性能监测的全流程操作。
- 集群测试:多节点协同工作中的模型测试方法。
- 稳定性测试与MFU(Most Frequent Use)测试的实践。
- 案例分析与讨论
- 结合实际案例讨论如何优化测试流程。
- 小组讨论:如何在不同场景下设计适用的测试方案。
第三天:昇腾算子开发与HCCL集合通信
上午:昇腾算子开发相关
- 常见错误码与问题排查
- 算子开发中的常见错误码解析。
- 错误码排查流程与日志分析技巧。
- 实战演练:通过日志定位并解决算子开发中的问题。
- 自定义算子的调用与调试
- 在MindSpore中的自定义算子调用与调试。
- 在MindFormers中的高阶算子调用与调试。
- 实战演练:开发并调试一个自定义算子。
- 高阶融合算子实现方法
- FFN、FlashAttentionScore的实现与优化。
- 反向计算的实现细节与性能调优。
- 实战演练:实现并优化一个高阶融合算子。
下午:HCCL集合通信相关
- HCCL常见错误码与处理方法
- HCCL常见错误码解析与问题排查流程。
- 结合案例分析错误码的处理方法。
- HCCL通信算法与算子开发
- HCCL通信算法的原理与实现。
- HCCL算子的开发教程与代码解析。
- 实战演练:开发并测试一个HCCL通信算子。
- HCCL新特性与调优
- HCCL相对于NCCL的新特性介绍。
- HCCL中的流控机制与常用调优手段。
- 实战演练:使用Profiling数据进行HCCL的调优。
第四天:智算集群网络设备与AI开发框架
上午:昇腾智算集群网络设备管理
- NSLB1.0和2.0方案实现细节
- NSLB1.0与2.0的架构对比与流量调度机制。
- 案例分析:NSLB方案在实际场景中的应用与优化。
- 实战演练:配置并优化NSLB流量调度方案。
- 端网协同机制
- 端网协同的消息通知机制与触发条件。
- 端网协同的策略与效果分析。
- 实战演练:在昇腾环境中配置并测试端网协同机制。
- 集合通信建链与mpirun测试
- 大模型训练中的集合通信建链机制。
- mpirun在集合通信中的应用与优化。
- 实战演练:大规模集群中的集合通信测试与优化。
下午:华为AI开发框架与工具链
- 华为CCAE与NCE系统使用
- CCAE的对外开放接口与开发对接流程。
- NCE fabric与NCE insight fabric的高阶使用方法。
- 实战演练:配置并使用CCAE与NCE系统。
- MindX与ModelArts框架使用
- MindX DL的使用与最佳实践。
- ModelArts平台的使用:模型训练、部署与优化。
- 实战演练:在ModelArts中完成一个完整的AI项目。
- 昇腾环境适配的AI开发框架
- 分布式并行训练框架的原理与实现。
- 并行优化策略与实际操作。
- 实战演练:在昇腾环境中进行分布式训练与优化。
讲师简历介绍
陈老师 AI智算技术专家
教育背景
硕士学位 | 天津大学 专业:高性能计算
研究方向:分布式计算、深度学习模型优化、GPU加速计算。
专业领域
华为昇腾技术栈: 深入掌握华为昇腾AI计算平台,包括昇腾算子开发、HCCL集合通信优化、智算集群建设与性能调优。
智算集群建设与优化: 专注于大规模智算集群的设计、部署、设备选型、网络配置及系统集成,提升集群性能和稳定性。
深度学习与高性能计算: 研究和应用分布式训练框架、优化技术,进行大规模计算任务的高效处理。
网络与系统集成: 在复杂网络环境下进行系统集成,确保数据传输的高效性与系统的稳定性。
AI开发框架: 熟悉多种AI开发框架,包括NCE fabric、NCE insight fabric、MindX和ModelArts平台的高阶使用。
学术成就
论文发表: 在国际顶级期刊上发表多篇高影响力研究论文,涉及高性能计算与AI模型优化领域,包括:
《IEEE Transactions on Neural Networks and Learning Systems》:论文集中于深度学习技术在高性能计算中的应用。
《Frontiers in Immunology》:研究了GPU加速技术在生物信息学中的应用。
专利:
“图像分类方法及装置”:改进了图像分类的准确性和处理速度。
“神经网络模型的训练方法及装置”:优化了神经网络模型的训练效率。
国际会议: 多次在国际学术会议上发表演讲,涵盖AI、深度学习和高性能计算领域。
代表性项目经验
GFDX智算集群项目
负责内容: 主导智算集群的整体设计与交付,包括设备选型、系统集成和网络设备配置。负责优化集群性能以满足高负载计算需求。
实际项目交付经验: 成功实施了62.5P的智算集群交付,确保系统的高效能和稳定性。
首都在线智算集群项目
负责内容: 主导智算集群的设计与部署,负责设备选型、集群网络架构设计和HCCL集合通信的优化配置。
实际项目交付经验: 成功交付了80P的智算集群项目,实现了高效的数据处理和计算能力。
北京昇腾人工智能计算中心
负责内容: 领导整个智算集群项目的建设与交付,包括设备选型、系统集成、网络设备配置与调优,以及昇腾平台的算子开发与优化。
实际项目交付经验: 主导了100P的智算集群交付,显著提升了计算能力和系统性能,满足了大规模AI应用需求。
教学与培训经验
昇腾技术培训: 为多家企业和研究机构提供昇腾技术栈的定制化培训,涵盖昇腾算子开发、HCCL通信优化、智算集群建设等内容。
教学方法: 善于将复杂的理论知识与实际应用相结合,通过案例分析与实践操作,帮助学员在短时间内掌握核心技术,并能在实际项目中独立应用。
孙老师 云原生及智能算力专家
熟悉政府行业项目运作机制,关注政策并具有产业趋势分析能力,结合国标和行标从产业全局高度看算力技术和智算中心的发展,同时熟悉政府和央国企行文方式,有较强的规划材料、申报材料编写和讲解能力。本人有多年从事技术管理及咨询实践的工作经验,熟悉政府、央国企数字化转型发展要求,精通云计算、数字化转型、智算中心、算力技术相关领域技术特点和发展趋势,对工作充满热情,热爱思考和学习,在工作繁忙中还笔耕不辍,写了多本专业书籍和数字化转型方面的书籍,抗压心理素质好。
著作和奖项
《云原生基础架构》译者2018年出版
《企业私有云建设指南》作者2019年出版
《油气行业数字化转型》编者2020年出版
《数字化管理师能力评价与培养》作者2024年10月即将出版
荣获阿里云MVP、腾讯云TVP、华为云MVP
工作履历
1、中科天机技术有限公司CTO兼技术总监(2024年4月至今)
负责湖北安陆智算中心技术平台的规划、建设和运营技术支持,包括整体智算的组网、集群的设计及部署、智算存储的设计及部署,并对智算平台整体技术把关,对疑难问题进行排查和处理。
负责北京石景山智算平台的规划、建设和运营技术支持,包括整体智算中心的组网、集群的设计及部署、分布式存储的设计及部署,并对智算平台整体的方案汇报和技术把关,对前期点亮的200P算力进行部署和调优。
负责金融业智算行业解决方案的调研编写和规划、技术支持,包括智算集群的组网、集群的设计及部署、分布式存储的设计及部署,并对行业整体的方案汇报和技术把关。对接了某些银行的智能技术部并进行了技术和方案上的合作共建。
2、北京鸿雪信息科技有限公司CTO兼首席咨询师(2021年10月至2024年3月)
参与多项国家标准、团体标准、行业标准的研讨和编纂,联合信通院专家、参编企业专家共同召开标准编纂项目启动会和研讨会,与院所、参编企业等专家共同讨论标准名称、标准框架、标准指标等内容范围,结合各项标准展开咨询和评估测试。
参加信通院多项智算中心算力标准研讨,对接信通院和北京通信管理局拉通北京算力互联互通平台的验证和测试。申报算力浦江行动计划,对接信通院华东分院和上海通信管理局,拉通算力浦江相关算力标准的建设和研讨,帮助公司申请到算力浦江的专委会成员单位。
主导并负责数字化转型成熟度平台IT能力咨询评估---中国电信集团主导并负责数字化转型成熟度平台IT能力咨询评估-云智平台化-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-智慧财务-广东移动、中海物业主导并负责数字化转型成熟度业务IT能力咨询评估-业务中台评估-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-智慧采购-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-智慧管理-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-客户服务体验-云南移动主导并负责云原生技术架构成熟度能力咨询评估-中移苏研主导并负责电信核心应用系统现代化建设水平咨询评估-江苏移动
工作业绩:完成数字化转型成熟度、智慧财务、业务中台、智慧采购、智慧管理、客户服务体验、云原生技术架构、应用现代化咨询评估,深入客户现场调研,形成了数字化转型咨询和评估方案,结合客户的问题针对提出整改提升的具体能力提升建议和解决方案,帮助客户持续提升数字化转型能力,并取得良好数字化转型实践效果。结合咨询实践,反哺到标准和指标优化,进一步丰富和完善了标准,为标准的落地和推广应用奠定了坚实的基础。同时在工作中不断完善和丰富了面向行业咨询的经验,为拓展不同行业客户积累了丰富的经验和能力。
3、昆仑数智科技数字化能力中心技术总监兼数字化咨询师
参与中油瑞飞数字化转型的顶层规划与设计
负责咨询国家管网西南管道数字化转型的顶层规划与设计、智慧管网的规划
负责咨询长庆油田的数字化转型规划与项目设计
负责咨询大庆油田采油九厂的数字化转型与项目设计
参与昆仑数智数字化平台的整体规划与设计
参与昆仑数智数据中台的整体规划与设计
负责并梳理昆仑数智数字化产品与解决方案
工作业绩:
完成中油瑞飞数字化转型的顶层规划与设计,深入业务板块调研,形成了18个数字
化场景的项目卡片,持续推进公司运营管理和业务的数字化转型,初步取得良好数字化转型效果。在集团内部,参与长庆油田、大庆油田及西南管道的数字化顶层规划与设计,积累了丰富的咨询经验,并在转型中不断思考和沉淀,形成了自己的数字化转型方法论,并和信通院合作完成了数字化成熟度评估模型和指标体系,促进了数字化转型,为集团整体的数字化转型打下了基础。2020年9月,与信通院合作发布油气行业数字化白皮书,编辑并出版第一本《油气行业数字化转型》书籍,在能源业界有一定影响。
云计算事业部系统架构师2014年5月至2019年4月
参与中石油F12云计算平台的IAAS规划部署和测试及上线
参与中石油F9灾难恢复系统一二期的规划设计及部署实施上线
参与中石油F12云计算平台的PAAS规划设计与部署上线
2015年负责中石油和INTEL软件定义存储的4家厂商产品的联合测试和评估2016负责测试评估阿里企业专有云1130版,阿里专有云平台技术评估负责人2016负责测试和评估华为的FusionSphere云操作系统基础管理软件
2017参与测试信息安全F14项目海量日志的大数据采集和评估系统
2018参与云统一运维体系建设和实施规划
2019参与中石油F12云计算平台2.0的规划和设计熟悉服务器、存储、网络等硬件产品和功能特性,对企业云计算、高性能计算、软件定义数据中心等解决方案比较熟悉;
熟悉kubernetes和容器技术及架构,部署及运维
4、北京同方鼎欣技术有限公司2012年11月至2014年4月
IT技术一部高级运维兼移动项目负责人
负责北京移动KM\MOA\统一知识社区项目的运维和管理
负责生产系统的Unix\linux优化配置、运维支撑与安全
负责智算中心数据迁移、灾备项目的规划、方案设计
参与中国移动广州南方基地私有云知识社区项目的规划设计和集成部署
熟悉IBM的WEBSPHERE/IHS/MQ软件
熟悉ORACLE,熟悉LINUX/SHELL/DB2/MYSQL/MONGODB的部署、配置与优化。
课件内容样例
过往相关案例
训练营名称 | 培训周期 | 培训内容 | 服务客户 |
Nvidia全系技术栈培训-技术架构、智算平台、算力中心建设 | 14天 | 详尽解析英伟达技术体系,包括DGX、HGX、GPU技术及IB网络架构,及其在智算平台中的应用。不论是面向AI开发框架的深入了解,还是大模型的端到端调优,线上及线下双模式培训都将提供丰富的实操经验。让企业在英伟达系统中,提升大模型性能,优化智算中心的设计与运维,精通存储和网络基础设施的构建。 | 某智算集群建设厂商 |
从训练到推理,LLM大模型技术培训 | 6天 | 内容全面揭示大模型技术的核心原理与应用。深入探讨大模型从理论到实践的每一个环节,包括大模型的理论基础、关键技术如分布式并行计算、训练加速技术,以及推理优化技术。 | 中国石油数据中心 |
RAG&CoT深度技术课程 | 2天 | 《RAG&CoT深度技术课程》是为某IT软件上市公司的AI系统开发团队定制研发的高级培训课程,旨在深入讲解大语言模型(LLM)领域的两大前沿技术:RAG(Retrieval-Augmented Generation)和思维链(Chain of Thought, CoT)。本课程通过理论与实践相结合的方式,详细介绍RAG和CoT技术的基本原理、应用场景、技术实现方法以及最新的研究进展,帮助学员全面掌握这些技术的核心要点。 | 新致软件 |
LLM大模型技术内训 | 4天 | 本次培训项目是为华南某大型商业银行研发中心的产品经理、研发工程师、算法工程师定制开发的全面的大模型知识及其在金融行业中的应用培训和课题研讨。通过本次课程,学员深入了解了大语言模型(LLM)的基本原理、应用场景、案例分析以及实际操作技巧,从而在需求沟通和产品设计中能够更好地运用大模型技术。 | 广发银行 |
高性能计算环境下的算力集群规划与优化 | 12天 | 本课程旨在为数据中心的运维工程师、IT工程师提供一套全面且深入的培训,涵盖从算力集群的规划与设计、POC环境的搭建,到GPU、CUDA、算力模型、应用调优、应用性能监测、算力调度管理、网络调优和安全保障等多个关键领域。整个课程注重实操,旨在提升学员的动手能力,使其能够在实际工作中高效地管理和优化高性能计算环境。 | 某智算集群建设厂商 |