亚马逊云科技陈晓建:每个应用程序都离不开生成式AI
云服务的开创者,重构云服务!
亚马逊云科技的诞生,标志着全球云服务商业化时代的开启。到今天18年过去了,云服务已从当初小规模、局部的试用,以及中小企业或初创企业的首选,逐步演进成各种规模的企业最核心的业务支撑平台。从2023年底开始,生成式AI的出现犹如平地惊雷,正在颠覆每一个行业,而云基础设施及服务也在被重塑之列。
当前,亚马逊云科技已成为全球各地各个行业大型企业的首选云服务提供商,拥有数百万的客户。这些客户在亚马逊云科技上运行着各种各样、令人叹为观止的应用场景。亚马逊云科技大中华区产品部总经理陈晓建表示:“作为全球云计算的开创者和引领者,亚马逊云科技更是企业构建和应用生成式AI的首选。今年re:Invent全球大会的一系列重磅发布再次印证了这一点。我们不仅在云的核心服务层面持续创新,更在从芯片到模型再到应用的每一个技术堆栈层面取得突破,让不同层级的创新相互赋能、协同进化。只有全栈联动的大规模创新,才能有效助力各行各业重塑未来。”
亚马逊云科技大中华区产品部总经理 陈晓建
作为颠覆者,亚马逊云科技曾经用云计算这一锐利的矛刺破了传统IT的盾。今天,生成式AI似乎又成了攻无不克的矛,亚马逊云科技将如何驾驭呢?
人们对于算力的追求是无止境的
生成式AI带来的最直接、最棘手的挑战恐怕就是算力。突破“算力资源紧张、计算成本高昂、技术底座要求高”等瓶颈,也是亚马逊云科技努力的方向。“几乎所有的应用程序都可以分解成几个核心的构建单元。”陈晓建分析说,“亚马逊云科技所做的就是构建非常优秀的核心单元。用户可以通过自由搭建这些核心单元,满足其在特定场景下不同业务的需求。”
从计算来看,亚马逊云科技目前提供的计算实例比其他所有云计算提供商都要多。亚马逊云科技的计算“底盘”是Amazon EC2,它提供了更多实例的类型和更多功能,无论面对什么样的负载、什么样的计算需求、什么样的地域,都能匹配最具性价比的解决方案。最新推出的搭载NVIDIA Blackwell芯片的Amazon EC2 P6实例系列,已在亚马逊云科技海外区域上线,其计算性能是当前GPU的2.5倍。
AI训练与推理的工作场景复杂且多样,不是一种架构的芯片或者一个厂商的解决方案就能完全覆盖。在生成式AI时代,芯片的创新又迎来一波高潮。近几年,亚马逊云科技除了更好地支持像NVIDIA等第三方的芯片以外,还不断加大对自研芯片的投入力度。
在通用芯片的自研方面,亚马逊云科技早在2018年便推出了Amazon Graviton处理器。几个月前,又推出了迄今为止最强大的Graviton芯片——Amazon Graviton4,其单核计算性能提升了30%,虚拟CPU数量和内存容量都是上一代产品的3倍。“在我们数据中心新增的处理器中,Amazon Graviton 的占比超过50%。在规模最⼤的1000家Amazon EC2客户中,超过90%的客户都在使用Amazon Graviton。”陈晓建举例说,“Pinterest此前运行着数千个x86实例,后来决定迁移到Graviton平台,不仅性能得到了显著提升,计算成本更是降低了47%,同时碳排放量也降低了62%。”
亚马逊云科技拥有两款自研AI芯片,一款是训练芯片Amazon Trainium,另一款是推理芯片Amazon Inferentia。
Amazon Trainium作为训练芯片,追求极致的计算性能。由于训练依赖大量分布式计算,单个芯片难以完成有效的模型训练,所以对芯片网络的高带宽支持至关重要。如今,搭载Amazon Trainium2的Amazon EC2 Trn2实例已正式在海外区域推出,它与当前一代基于GPU的实例相比,性价比提升了30%-40%。据了解,每个Trn2实例都配备了16个Amazon Trainium2芯片。这些芯片通过NeuronLink的高带宽、低延迟互连技术相连,单个实例能够提供高达20.8 Petaflops的计算性能,非常适合训练和部署具有数十亿参数的大型语言模型。另外,全新推出的Amazon EC2 Trn2 UltraServers服务器配备了64个相互连接的Trainium2芯片,并采用NeuronLink超速互连技术,可提供高达83.2 Petaflops的浮点算力,其计算、内存和网络能力是单一实例的四倍。据陈晓建介绍,亚马逊云科技携手Anthropic正在打造名为Project Rainier的EC2 UltraCluster,它包含数十万颗Trainium2芯片,所能达到的超级算力比当前一代领先的AI模型训练所需算力高出5倍以上。
Amazon Inferentia推理芯片已经推出两代,相对而言,推理对于多机协同的需求没有那么高。Inferentia2于去年发布,包括中国头部互联网企业在内的大量用户都在广泛使用Inferentia。
陈晓建透露,明年,亚马逊云科技将推出采用3纳米工艺的第三代训练芯片Trainium3,它是专为满足新一代前沿生成式AI工作负载的高性能需求而设计的,在性能、能效和密度上树立了新标杆。搭载Trainium3的UltraServers的性能预计是Trn2 UltraServers的4倍。这样一来,客户就能以更低的成本构建规模更大、性能更强的应用。
特别值得一提的是,除了性能等技术指标以外,亚马逊云科技在自研芯片的过程中,还非常注重能效、碳排放等因素。Adobe、Databricks、高通、苹果等都在使用Trainium芯片进行训练,同时结合Inferentia进行推理,取得了出色效果。这充分体现了头部企业对亚马逊云科技自研芯片价值的认可。
“倾听客户心声,着眼于长远发展”是亚马逊云科技始终秉承的座右铭。从需求发展来看,用户对于大算力的追求是无止境的,这也是驱动亚马逊云科技在自研芯片方面持续迭代升级最重要的力量。作为云基础设施平台的提供者,亚马逊云科技要为用户提供更多的选择、更优的选择,而自研芯片可以作为很好的补充和增强。如今,生成式AI市场的角力才刚刚开始,谁都想把主动权牢牢掌握在自己手中。亚马逊云科技不断加码自研芯片,这不仅是满足当前客户需求的必然选择,更是为了以后能更好地实现创新,始终引领行业发展。
大模型不仅要训得好更要用得好
生成式AI市场的飞速发展,在很大程度上得益于各种各样大模型的兴起,它就如同一个加速引擎,推动着AI不断向前向前。大模型虽然不是万能的,但从现在的情况看,没有大模型是万万不能的。
去年,亚马逊云科技虽然发布了嵌入式模型Amazon Titan,但并没有像其他友商那样热衷于大模型本身的迭代,而是更多地发力如何支持大模型的落地和应用,重点打造Amazon Bedrock这一构建和扩展生成式AI应用的关键平台。这与亚马逊云科技提供基础云服务的定位是十分契合的——亚马逊云科技并不需要在大模型上争短长,它的使命是帮助用户用好大模型,并且真正带来价值。Amazon Bedrock在持续更新,比如最新推出了延迟优化选项、模型蒸馏功能、自动推理检查功能、多智能体协作功能,以及Amazon Bedrock知识库可以支持GraphRAG。这些改进和举措都是为了让用户能够更好地应用AI实现工作效率和业务效果的提升。
话又说回来,亚马逊云科技的整体策略是以客户需求为主的逆向工作法,致力于给客户更多选择,通过Amazon Bedrock平台部署不同的模型,以满足客户多样化的需求。为了让用户有更多、更好的选择,有能力的亚马逊云科技也选择给自己加码——最新发布了6个不同定位的模型系列Amazon Nova:Nova Micro是文本到文本模型,能以极低的成本实现低延迟响应;Nova Lite是成本极低的多模态模型,可快速处理多种输入;Nova Pro是功能强大的多模态模型,在准确性、速度和成本间实现了平衡;即将推出的Nova Premier是其中能力最强的多模态模型,可处理复杂推理任务并指导定制模型蒸馏;新一代图像生成模型Amazon Nova Canvas,能帮助客户生成高质量图像(最高可以生成2048✕2048的图像),并且具备图像编辑功能;新一代视频生成模型Amazon Nova Reel,具备更高的视频生成质量和低延迟,用户通过简单描述内容即可生成视频,实现了视频制作的普惠化。
一边是新的模型层出不穷,一边是支持AI应用的平台不断优化和演进,亚马逊云科技两手抓,两手硬,始终引领生成式AI落地的节奏。值得注意的是,亚马逊云科技还推出了“大模型超市”,即Amazon Bedrock Marketplace,通过该平台,用户可以使用领先供应商提供的100+新兴和专业的基础模型。不仅如此,借助此平台,用户还能通过统一界面发现、测试各类模型;在部署模型后,还能使用Amazon Bedrock的统一API,以及知识库、安全防护、Agent等工具,获得安全和隐私保护。
不鸣则已,一鸣惊人。亚马逊云科技在大模型的道路上已经“刹不住车”。在Nova系列模型整装待发的同时,亚马逊云科技已经在计划推出speech to speech和any to any模型,旨在为用户提供更好的选择。
实际上,用户在规划其整个生成式AI的旅程时,需要的不只是模型,甚至不只是生成式AI这个词,而是实现数据与AI的统一,通过统一、开放、安全的平台,提供从数据到AI的一体化感受。从表面上看,亚马逊云科技似乎一直在谈自己的技术创新,但是亚马逊云科技的“功夫都在技术之外”——围绕着生成式AI的场景化,致力于帮助用户提升整体业务效率,挖掘此前未察觉的洞察,并在业务创新方面持续探索。
应用现代化不让任何一个企业掉队
所谓应用现代化,是指对现有的应用软件和系统进行改造和升级,以适应新的技术环境和业务需求。通过应用现代化,企业可以有效提升应用的性能、可靠性和安全性,同时降低成本,从而更好地适应需求和市场的变化。从这个角度说,云计算、生成式AI都是实现应用现代化的重要推动力量。
在利用云计算、生成式AI等先进技术手段对现有应用进行改造升级时,有的应用很容易就进行了迁移,然而也有一些应用因为自身的特殊性或架构方面的难点,短时间内很难实现现代化改造,比如大型主机上的应用迁移就是一个障碍点。但是随着技术手段的更新,有可能让“天堑变通途”。
当大多数人都习惯“向前看”,追逐新兴的AI应用和场景时,亚马逊云科技却适时地“回头看”,为传统工作负载的现代化提速。大家都知道“木桶理论”,只有实现全面的应用现代化,才能改善薄弱环节,提高企业整体的竞争力和效率。
Amazon Q是一个功能强大的生成式AI助手,可加速软件开发并利用公司的内部数据。在SWE-bench测试中,Amazon Q Developer的软件开发Agent的成绩名列前茅,目前已能解决54.8%的软件开发问题,且在7个月内能力提升两倍多。尤其值得关注的是,Amazon Q Developer推出了三款新的自动化智能体,包括能够自动执行单元测试、文档生成和代码审查流程的智能体,可大幅提升开发人员在整个软件开发流程中的效率。陈晓建介绍说,Amazon Q Developer的新功能可以加速大规模传统工作负载的转型,如加速Windows .NET、VMware和大型机工作负载的迁移和现代化,缩短转型时间的同时降低成本。
已经有成功实践证明,采用Amazon Q Developer可将.NET应用从Windows到Linux的迁移速度提升4倍,成本节省高达40%;还可以将VMware工作负载迁移到云原生架构上,并且自动识别依赖关系,改造网络配置,迁移时间从传统的数月或数周缩短至几小时;大型主机的迁移会更棘手一些,但采用Amazon Q的开发者功能可以将大型主机现代化的时间缩短最多50%,原来需要多年的项⽬,现在几个季度内就可以完成,未来这一周期还可能进一步缩短。
自从博通并购VMware后,VMware的市场、产品、销售和服务策略等都有了新的变化。进入“后VMware时代”,谁能平滑实现VMware工作负载的迁移成了热点。为此,国内外的许多IT厂商甚至包括一些开源社区,都在积极推出VMware的“平替”方案。Amazon Q的新功能虽然不是特意针对VMware,但是加速应用的现代化确实是刚性需求和必然趋势。在提升效率和实现自动化方面,生成式AI无疑是一个好帮手。不过,Amazon Q可不仅仅是一个“助手”,随着更多功能的增加,以及应用场景的开拓,它的潜能将进一步释放。
2024年的re:Invent全球大会,现场参与人数近6万,同时全球还有超过40万人在线观看。这是亚马逊云科技在生成式AI时代决胜的一次大会。在“放大镜”下,我们深入地了解了亚马逊云科技从计算、存储、网络、数据库到AI训练、推理等各个构建模块。在已经开启的生成式AI旅程中,企业正从选择切入场景、合适模型以及验证生成式AI价值的阶段,快速走向生产阶段。无论在哪个阶段,致力于重塑企业生成式AI和云上创新的亚马逊云科技,都是那个值得信赖的伙伴。
往/期/回/顾
从科技赋能到价值引领,东莞证券可进化的信创云建设启示录“智算”雄起 | 智算操作系统要“顶天立地”
十年,亚马逊云科技合作伙伴网络开启AI新征程
成为企业构建和应用生成式AI的首选!亚马逊云科技哪来的底气?
亚马逊云科技突破生成式AI“最后三公里”