构建安全可靠的人工智能数据中心的关键因素
深度:如何构建人工智能数据中心?
软件被认为是一个独立的数字世界,与物质世界无关。我们在手机上下载无数数据,却不会让它变重;观看数百部电影而不需物理磁盘;收藏数百本书而无需纸张。
数字基础设施依赖物理基础设施,软件运行离不开计算机。计算需求越大,对物理基础设施的需求也越大。例如,研究制造现代半导体所需的200亿美元设施以及最先进的人工智能软件都体现了这一点。
创建一个尖端的大型语言模型需要大量的计算,既要训练模型,也要在模型完成后运行它们。
训练OpenAI 的 GPT-4需要估计210 亿 petaFLOP (1 petaFLOP 是 10^15 次浮点运算)。[1]相比之下,iPhone 12 每秒能够进行大约 11 万亿次浮点运算(每秒 0.01 petaFLOP),这意味着如果你能够以某种方式在 iPhone 12 上训练 GPT-4,则需要 60,000 多年才能完成。在1997 年的100 Mhz 奔腾处理器上,每秒只能进行 920 万次浮点运算,理论上训练需要超过 660 亿年。而且 GPT-4 并不是一个例外,而是 AI 模型变得越来越大并且需要更多计算来创建的长期趋势的一部分。
来自Epoch AI
GPT-4并非在iPhone上训练,而是在数据中心的专门设计建筑中,借助数万台计算机及其支持基础设施进行训练。
随着各家公司竞相创建自己的 AI 模型,它们正在构建巨大的计算能力来训练和运行这些模型。为了满足 AI 需求的增长,亚马逊计划未来 15 年在数据中心上投资 1500 亿美元。仅在 2024 年,Meta 就计划在基础设施和数据中心上投资 370 亿美元,其中大部分与 AI 相关。
为 AI 公司提供云计算和计算服务的初创公司 Coreweave 已筹集数十亿美元资金来建设其基础设施,并将在 2024 年建设 28 个数据中心。所谓的“超大规模企业”,即拥有大量计算需求的科技公司,如 Meta、亚马逊和谷歌,估计它们计划或正在开发的数据中心足以将其现有容量翻一番。在全国各地的城市,数据中心建设正在飙升。
尽管对数据中心容量的需求不断增长,但建设更多数据中心可能面临越来越大的挑战。运营数据中心需要大量电力,而电力供应正逐渐成为限制因素。美国十大公用事业公司中有九家将数据中心视为客户增长的主要驱动力,而专业人士的调查显示,电力可用性和价格是影响数据中心选址的关键因素。随着即将建设的数据中心数量创下历史新高,这一问题将愈发严重。
人工智能竞争的后续影响亟待关注。若过去几年的迅猛发展持续,先进的AI系统将极大地推动科技进步和经济增长。强大的AI系统对国家安全至关重要,可实现新型攻防技术。失去AI发展前沿将严重削弱国家安全及塑造未来能力。此外,一项主要由美国开发的变革性技术或将输给外国竞争对手。
人工智能的运行依赖稳定的电力供应。美国在清洁稳定能源创新方面的领导地位,应充分利用于确保未来全球人工智能数据中心的建设,这将不仅推动科技进步,也彰显美国的全球责任和领导力。
1. 数据中心简介
大型数据中心布局参考“The Datacenter as a Computer”,专业且简洁,吸引人。
大型计算设备始终需要设计专门的空间来容纳它。当 IBM 在 1964 年推出其 System/360 时,它提供了一份 200 页的物理规划手册,其中提供了有关空间和电源需求、工作温度范围、空气过滤建议以及计算机正常运行所需的所有其他信息。但从历史上看,即使是大型计算操作也可以在主要用于其他用途的建筑物内完成。
即使在今天,大多数“数据中心”也只是多用途建筑中的房间或楼层。根据 EIA 的数据,截至 2012 年,全国 97,000 栋建筑中都有数据中心,包括办公室、学校、实验室和仓库。这些数据中心通常面积约为 2,000 平方英尺,平均仅占用其所在建筑的 2%。
我们所认为的现代数据中心,即专门建造的容纳数万台计算机的大型建筑,在很大程度上是后互联网时代的产物。谷歌的第一个“数据中心”是一个 28 平方英尺的笼子,里面有 30 台服务器,与 AltaVista、eBay 和 Inktomi 共享空间。如今,谷歌在全球37 个专用数据中心运营着数百万台服务器,其中一些数据中心的面积接近一百万平方英尺。这些数据中心以及全球数千个其他数据中心为网络应用、流媒体视频、云存储和人工智能工具等互联网服务提供支持。
大型现代化数据中心,拥有数以万计的独特计算机,这些经过精心设计的计算机可垂直堆叠于大型机架内。每个机架能容纳数十台计算机,以及为操作这些设备所需的网络交换机、电源和备用电池。在数据中心内部,错综复杂的走廊布满了数十或数百个机架,构成了一个庞大而高效的计算网络。
"机架,源自《数据中心作为计算机》的智慧。以“单位”衡量,每个单位高达1.75英寸。常见的42U或48U机架容量丰富多样,提供多元化的可能。"
数据中心内安装的计算机设备数量意味着其耗电量巨大。单台计算机耗电量并不大:机架式服务器可能耗电量只有几百瓦,大约是吹风机功率的五分之一。但数万台计算机加在一起会产生巨大的需求。如今,大型数据中心可能需要100 兆瓦(1 亿瓦)或更多的电力。这大约相当于 75,000 户家庭所需的电力,或在电弧炉中熔化 150 吨钢所需的电力。
事实上,电力需求如此重要,以至于数据中心通常以耗电量而非建筑面积来衡量(世邦魏理仕的这份报告估计,美国在建的数据中心容量为 3,077.8 兆瓦,但具体数字未知)。它们的电力需求意味着数据中心需要大型变压器、高容量电气设备(如开关设备),在某些情况下甚至需要一个新的变电站来将它们连接到输电线。
所有电力最终将在数据中心转化为热能,因此需要同样强大的设备来迅速散发热量。机架位于架空地板上,通过大量空气从下方吸入并穿过设备以保持凉爽。通常,机架会交替布置为“热通道”和“冷通道”,以便热废气从数据中心的冷却系统排出并循环。尽管这些冷却系统可能相当复杂,包含多个热交换流体“冷却回路”,但几乎所有数据中心都依赖于空气来冷却IT设备本身。
热通道冷通道数据中心布置,来自42U
"三环路数据中心冷却系统,源自“The Datacenter as a Computer”,确保高效稳定运行。"
这些庞大的冷却系统并不令人惊讶。每分钟需要约120立方英尺的空气来处理一千瓦电力,而对于100兆瓦电力,这意味着每分钟需要1200万立方英尺的空气。数据中心冷却器的冷却系统容量是普通家用空调的数千倍。即使是相对较小的数据中心也会有巨大的空气管道、高容量冷却设备和大型冷却塔。此视频展示了一个拥有一百万加仑“冷电池”水箱的数据中心:在夜间进行水冷却,利用低电价时段,白天则利用电力减轻冷却系统的负担。
为降低耗电量,数据中心行业正积极探索提高能源效率的方法。电源使用效率(PUE)是衡量数据中心性能的关键指标,它表示数据中心消耗的总电能与IT设备消耗的电能之比。PUE越低,数据中心在非计算机运行方面的能耗就越少,整体效率也越高。
数据中心的 PUE 一直在稳步下降。2007 年,大型数据中心的平均 PUE 约为 2.5:为计算机供电的每瓦电力中,有 1.5 瓦用于冷却系统、备用电源或其他设备。如今,平均 PUE 已降至 1.5 多一点。超大规模企业的表现甚至更好:Meta 的平均数据中心 PUE 仅为1.09 ,而Google 的为 1.1 。这些改进来自诸如更高效的组件(例如转换损耗更低的不间断电源系统)、更好的数据中心架构(改为热通道、冷通道布置)以及在更高的温度下运行数据中心,从而减少冷却需求。
电力进入计算机后,效率也有所提高。计算机必须将电网中的交流电转换为直流电;在旧计算机上,这种转换效率只有 60%-70%,但现代组件可以实现高达 95% 的转换效率。无论是否在做有用工作,旧计算机都会使用几乎相同的电量。但现代计算机在空闲时更有能力降低功耗,从而减少电力消耗。
而且,由于摩尔定律,计算本身的能源效率随着时间的推移而提高:晶体管越来越小,意味着运行它们所需的电力更少,这意味着给定计算量所需的功率更少。从 1970 年到 2020 年,计算的能源效率大约每 1.5 年翻一番。
得益于数据中心效率的稳步提升,尽管单个数据中心规模不断扩大,耗电量持续攀升,但数据中心整体能耗仍保持稳定。
回顾美国市场,2000-2007年间,数据中心能耗翻倍,然而接下来的10年里,能耗水平持续稳定,即便全球互联网流量增长超过20倍。展望未来,2015-2022年期间,全球数据中心能耗预计将增长20%至70%,然而在此期间,数据中心的工作量将飙升至340%,互联网流量更是激增600%。
2000 年至 2014 年数据中心的用电量,来自 LBL
数据中心设计中,除了关注功耗外,另一个关键因素是可靠性。一个服务数百万客户的数据中心,每分钟的服务中断可能导致数万美元的损失。为降低停机风险,数据中心设计通常按等级系统分级,从一级到四级,高等级相对低等级更可靠。[3]
大多数美国大型数据中心位于Tier III和Tier IV之间,具备柴油发电机备用、冗余组件防单点故障、多路径供电与冷却等措施。尽管Tier IV数据中心理论上可达99.995%的运行时间,但人为失误仍可能影响其可靠性。
2N 冗余电源系统是指由两套或多套发电机组组成的冗余系统,每套发电机组含 N 台发电机组,其总容量为系统的基本容量。该系统从交流输入经发电机组直到双电源输入负载,完全是彼此隔离的两条供电线路,也就是说,在供电的整个路径中的所有环节和设备都是冗余配置的,正常运行时,每套发电机组系统仅承担总负荷的一部分。
这种多电源系统冗余的供电方式,克服单电源系统存在的单点故障瓶颈,增加了供电系统可靠性。采用 2N 冗余系统可用性得到明显提高。但是由于设备配置多、成本高,通常情况下效率比 N+X 系统低。
2. 数据中心趋势
随着时间的推移,数据中心的规模越来越大,耗电量也随之增加。21 世纪初,数据中心的一个机架可能消耗一千瓦电力。如今,企业数据中心的典型机架耗电量为 10 千瓦或更少,而超大规模数据中心的机架耗电量可能达到 20 千瓦或更多。同样,10 年前,几乎所有数据中心的耗电量都低于 10 兆瓦,但如今大型数据中心的耗电量将达到 100 兆瓦或更多。
而且,许多公司正在建设包含多个独立数据中心的大型园区,将总电力需求推高至千兆瓦范围。备受关注的亚马逊购买核电数据中心就是这样一个园区;它包括一个现有的48 兆瓦数据中心和足够的扩展空间,总容量可达到960 兆瓦。随着超大规模数据中心占据数据中心总容量的更大比例,大型数据中心和园区将变得更加普遍。
如今,数据中心仍只占整体电力需求的一小部分。国际能源署估计,截至 2022 年,全球数据中心消耗的电力占全球电力需求的 1% 至 1.3%(另有 0.4% 的电力用于加密挖矿)。但预计这一数字会随着时间的推移而增长。SemiAnalysis 预测,到 2030 年,数据中心的电力消耗可能会增加两倍,达到全球电力消耗的 3% 至 4.5%。
而且由于数据中心建设往往高度集中,数据中心已经是某些市场最大的电力消耗者之一。例如,在爱尔兰,数据中心使用了近18% 的电力,到 2028 年可能会增加到 30%。在全球最大的数据中心市场弗吉尼亚州,弗吉尼亚电力公司出售的电力中有 24%流向了数据中心。
电力供应已成为新数据中心建设的瓶颈,导致一些主要业务司法管辖区减少建设。新加坡是全球最大的数据中心枢纽之一,但自2019年至2022年期间暂停了新建项目,并在暂停期结束后实施严格的能效标准。爱尔兰都柏林地区也已暂停新数据中心的建设,直至2028年。尽管北弗吉尼亚州是全球最大的数据中心市场,但最近一个县因电力供应担忧首次拒绝了该地区的数据中心申请。
在美国,由于建设新电力基础设施的困难,这一问题变得更加严重。公用事业公司建设的输电线路数量创历史新低,而漫长的互连队列也推迟了新的发电来源。从公用事业的角度来看,数据中心可能尤其具有挑战性,因为它们的需求或多或少是恒定的,从而提供了更少的负载转移机会,并对稳定电力产生了更大的需求。
一家数据中心公司老板声称,美国可用的数据中心几乎“断电”,主要是因为输电容量不足。Meta 首席执行官马克·扎克伯格也发表了类似的说法,他指出,“如果我们能够获得足够的能源,我们可能会建造比现在更大的集群。”一位能源顾问简洁地总结了这个问题:“数据中心的建设周期为一到两年,但能源供应却是三年内没有的。”
电力基础设施问题的一部分是时间错配。公用事业公司将主要电力基础设施视为长期投资,以应对持续的需求增长。任何新的电力基础设施的使用时间都可能比数据中心的寿命长得多,而公用事业公司可能不愿意仅仅为了容纳它们而建造新的基础设施。在某些情况下,数据中心和公用事业公司之间需要签订长期协议才能建造新的基础设施。
俄亥俄州一家电力公司最近提交了一份提案,要求数据中心从公用事业公司购买 90% 的电力,无论它们使用了多少电力。为北弗吉尼亚州供电的杜克能源公司也同样对数据中心提出了最低购买量要求,要求它们购买最低限度的电力。
数据中心建设者正积极寻求替代位置和能源以应对电力短缺问题。为减少延迟,他们通常会选择建在主要需求源或互联网基础设施附近。然而,随着电力短缺和邻避主义现象日益严重,建筑商可能会将建设转移到电力供应更充足的小城市。此外,他们还在尝试使用公用电力的替代方案,如连接到微电网的本地太阳能和风力发电、天然气燃料电池以及小型模块化反应堆等。
3.人工智能的影响
人工智能对数据中心建设的影响:随着人工智能模型的庞大化和训练需求的增长,数据中心的电力消耗可能在未来几年内达到总电力的20%。然而,历史上数据中心需求的增长已基本被效率提升所抵消。Nvidia的新型GB200 NVL72人工智能超级计算机、计算效率更高的模型以及潜在的超高效芯片技术(如光子学或超导芯片)都预示着这一趋势将继续。
人工智能对数据中心的影响分为两个方面:一是单个数据中心及其所在地区的影响;二是数据中心整体对总功耗的影响。
对于单个数据中心,AI 可能会继续推动其规模更大、功耗更高。如前所述,训练和运行 AI 模型需要大量计算,而为 AI 设计的专用计算机会消耗大量电力。虽然典型数据中心的机架功耗约为 5 到 10 千瓦,但 Nvidia superPOD 数据中心包含 32 个 H100(Nvidia 销售数百万台的专为 AI 工作负载设计的专用图形处理单元或 GPU)的机架功耗可能超过 40 千瓦。
虽然 Nvidia 的新款 GB200 NVL72 可以更高效地训练和运行 AI 模型,但从绝对意义上讲,它的功耗要高得多,每个机架的功耗高达 120 千瓦。未来专用于 AI 的芯片功耗可能会更高。即使未来的芯片计算效率更高(而且很有可能),它们仍将消耗更大的电量。
这种功率不仅远远超出了大多数现有数据中心的设计输出能力,而且废热量也开始突破传统空气冷却系统能够有效消除的界限。传统空气冷却可能仅限于 20 到 30 千瓦机架,如果使用后部热交换器,则可能为 50 千瓦。一份数据中心设计指南指出,人工智能需求可能需要大量的气流,因此设备需要间隔开来,由于气流通道很大,IT 设备仅占数据中心地板空间的 10%。对于其 H100 superPOD,Nvidia 建议要么每个机架使用更少的计算机,要么将机架间隔开来以分散电力需求和冷却要求。
由于目前的数据中心不一定适合 AI 工作负载,因此 AI 需求可能会导致专门为 AI 设计的数据中心。SemiAnalysis预测,到 2028 年,超过一半的数据中心将用于 AI。Meta 最近取消了几个数据中心项目,以便重新设计它们以处理 AI 工作负载。AI 数据中心需要能够为单个机架提供更大的电力,并在电力转化为废热时将其移除。这可能意味着从空气冷却转向液体冷却,液体冷却使用水或其他导热流体从计算机和 IT 设备中去除热量。
在不久的将来,这可能意味着直接到芯片的冷却,其中流体直接通过管道输送到计算机芯片周围。谷歌为 AI 工作设计的张量处理单元 (TPU) 和 Nvidia 的 GB200 NVL72 已经采用了这种策略。从长远来看,我们可能会看到浸入式冷却,其中整个计算机都浸入导热流体中。
优化后的文章:
人工智能数据中心的运行,无论技术如何先进,都需要巨大的电力供应。这就意味着我们需要建设更多的输电线路、变电站以及稳定的低碳电力来源来满足科技公司的气候目标。因此,消除这些基础设施的建设阻碍对于美国在人工智能竞赛中保持领先地位至关重要。
人工智能对数据中心总功耗的影响是一个热门话题。根据国际能源署 (IEA) 的数据,2022 年数据中心的耗电量约占全球总用电量的 2%,达到 460 TWh 左右。如今,加密货币和人工智能/机器学习 (AI/ML) 等高耗能应用方兴未艾,而这些技术中通常需要部署大量的高性能图形处理单元 (GPU)。因此,数据中心耗电量仍将不断攀升。
随着人工智能技术的快速发展,尤其是深度学习和超大规模模型的应用,导致数据中心的电力消耗急剧增加。以下是AI对数据中心电力消耗的几个关键影响: 1、大规模模型训练的高耗能。AI模型,特别是像GPT-3这样的大规模自然语言处理模型,其训练过程需要处理大量数据,且依赖于GPU或TPU等高性能硬件。 这些硬件在全速运行时消耗的电力非常高。
例如,GPT-3的训练消耗了数百兆瓦时的电力,相当于一辆汽车行驶几十万公里的碳排放。 随着AI模型的规模不断扩大,训练过程已成为数据中心电力消耗的重要来源之一。 2、AI推理过程的电力需求。除训练外,AI模型的推理过程也需要大量计算资源,尤其是在实时应用中,如自动驾驶、智能语音助手和图像识别等。
这更难预测,但结果可能介于两者之间。怀疑论者正确地指出,从历史上看,数据中心的功耗增长远低于需求,芯片和人工智能模型可能会变得更高效,而对当前功率需求的天真推断可能不准确。但也有理由相信,数据中心的功耗仍将大幅上升。在某些情况下,效率改进被夸大了。Nvidia 的 NVL72 的效率改进在实践中可能远低于 Nvidia 用于营销目的的 25 倍数字。许多电力需求预测,例如超大规模企业内部使用的预测,已经考虑到了未来的效率改进。虽然超导芯片或光子学等新型超低功耗芯片技术可能是未来的可行选择,但这些都是遥远的技术,在未来几年内不会解决电力问题。
数据中心的节能之道在某种程度上已经变得更加具有挑战性。虽然电力消耗基本持平,但 PUE 的增加导致了冷却、UPS 系统等电力减少。然而,随着技术的进步,许多节能收益已经实现:目前最好的数据中心仅将10%的电力用于冷却和其他非IT设备。
怀疑论者还没有意识到 AI 模型可能会变得多么庞大,而提高的芯片效率可能会多么容易被更多的计算需求所吞噬。互联网流量用了大约 10 年的时间才增长了 20 倍,但尖端 AI 模型每年的计算强度却增加了4 到 7 倍。SemiAnalysis对数据中心的预测考虑了当前和预计的 AI 芯片订单、科技公司资本支出计划以及现有数据中心的功耗和 PUE 等因素,表明到 2030 年全球数据中心的功耗将增加两倍以上,达到全球电力需求的 4.5%。无论总体趋势如何,单个数据中心不断增长的电力需求仍将带来需要解决的基础设施和选址挑战。
4.结论
互联网和数字基础设施的蓬勃发展对物理基础设施提出了巨大需求,如容纳数万台计算机和其他IT设备的数据中心。随着这些设施需求的持续增长,数据中心规模不断扩大,耗电量也水涨船高。如今,一座现代化数据中心所需的电力可与一个小城市相媲美,而多个数据中心组成的园区所消耗的电力更是堪比一座大型核反应堆。
人工智能的崛起推动了数据中心的快速发展,但其高耗电量也带来了挑战。为满足电力需求,数据中心正向可供电地区迁移。然而,随着电气化需求不断扩大,这一限制将愈发严格。
电弧炉是一种高效的钢铁生产设备,每小时可生产130至180吨钢铁,相当于每分钟生产约2.17至3.06吨。而每吨钢铁的生产过程需要消耗650千瓦时的电力,这就意味着,这个电弧炉在运行过程中,每分钟可以产生约145至200千瓦时的电力,或者说97.5兆瓦。
在全球范围内,数据中心的评级系统各不相同,但大致可以对应。一些供应商宣称其拥有更可靠的Tier V数据中心,这是一种非官方的等级,尽管如此,它在业界仍具有一定的影响力。值得一提的是,数据中心贸易组织Uptime Institute并未对这种非官方评级进行认可。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-