为生成式 AI 工作负载设计弹性
弹性在任何工作负载的开发中都扮演着关键角色,而生成式AI工作负载也不例外。从弹性的角度来设计生成式 AI 工作负载时有一些独特的考虑因素。理解并优先考虑弹性对于生成式 AI 工作负载来满足组织的可用性和业务连续性要求至关重要。在这篇文章中,我们讨论了生成式AI工作负载的不同技术栈以及应该考虑的因素。
全栈生成式 AI
尽管围绕生成式 AI 的很多兴奋点都集中在模型上,但一个完整的解决方案涉及来自多个领域的人员、技能和工具。考虑下图,这是 AWS 对 a16z 新兴应用程序栈在大语言模型(LLM)方面的看法。
Taxonomy of LLM App Stack on AWS
与传统的围绕 AI 和机器学习(ML)构建的解决方案相比,生成式 AI 解决方案现在涉及以下内容:
新角色 – 除了模型构建者和模型集成者,你还必须考虑模型调优者
新工具 – 传统的 MLOps 技术栈无法覆盖 prompt engineering 或调用工具与其他系统交互的 agent 所需的实验跟踪或可观察性类型
Agent 推理
与传统的 AI 模型不同,Retrieval Augmented Generation(RAG)通过集成外部知识源,可以提供更准确、更符合上下文的响应。使用 RAG 时需要考虑以下几点:
设置适当的超时对用户体验很重要。没有什么比在聊天过程中突然断开连接更能说明糟糕的用户体验了。
确保根据模型定义的分配字符限制来验证 prompt 输入数据和 prompt 输入大小。
如果你在进行 prompt engineering, 你应该将 prompts 持久化到可靠的数据存储中。 这将在意外丢失的情况下保护你的 prompts,或作为整体灾难恢复策略的一部分。
数据管道
在需要使用 RAG 模式为基础模型提供上下文数据的情况下,你需要一个数据管道,可以摄取源数据,将其转换为 embedding vectors,并将 embedding vectors 存储在向量数据库中。如果你提前准备上下文数据,这个管道可以是批处理管道;如果你即时合并新的上下文数据,则可以是低延迟管道。在批处理的情况下,与典型的数据管道相比有几个挑战。
数据源可能是文件系统上的 PDF 文档、来自 CRM 工具等 SaaS 系统的数据,或来自现有 wiki 或知识库的数据。从这些源摄取数据与从典型数据源(如 Amazon S3 存储桶中的日志数据或关系数据库中的结构化数据)摄取数据不同。你可以实现的并行级别可能受源系统的限制,因此你需要考虑限流并使用退避技术。一些源系统可能很脆弱,因此你需要构建错误处理和重试逻辑。
无论你是在管道中本地运行 embedding 模型还是调用外部模型,embedding 模型都可能成为性能瓶颈。embedding 模型是在 GPU 上运行的基础模型,没有无限的容量。如果模型在本地运行,你需要根据 GPU 容量分配工作。如果模型在外部运行,你需要确保不会使外部模型饱和。在任何一种情况下,你可以实现的并行级别都将由 embedding 模型决定,而不是批处理系统中可用的 CPU 和 RAM 数量。
在低延迟的情况下,你需要考虑生成 embedding vectors 所需的时间。调用应用程序应该异步调用管道。
向量数据库
向量数据库有两个功能:存储 embedding vectors,以及运行相似性搜索以找到与新向量最接近的 k 个匹配项。向量数据库通常有三种类型:
专用的 SaaS 选项,如 Pinecone
内置于其他服务中的向量数据库功能,包括原生 AWS 服务,如 Amazon OpenSearch Service 和 Amazon Aurora
可用于低延迟场景中瞬态数据的内存选项
在这篇文章中,我们不会详细介绍相似性搜索功能。尽管它们很重要,但它们是系统的功能方面,不会直接影响弹性。相反,我们关注向量数据库作为存储系统的弹性方面:
延迟 – 向量数据库能否在高负载或不可预测的负载下表现良好?如果不能,调用应用程序需要处理速率限制、退避和重试。
可扩展性 – 系统可以容纳多少个向量?如果超过向量数据库的容量,你将需要研究分片或其他解决方案。
高可用性和灾难恢复 – Embedding vectors 是有价值的数据,重新创建它们可能很昂贵。你的向量数据库在单个 AWS 区域内是否具有高可用性?它是否能够将数据复制到另一个区域以用于灾难恢复?
应用层
在集成生成式 AI 解决方案时,应用层有三个独特的考虑因素:
潜在的高延迟 – 基础模型通常在大型 GPU 实例上运行,可能有有限的容量。确保使用最佳实践进行速率限制、退避和重试以及负载削减。使用异步设计,以便高延迟不会干扰应用程序的主界面。
安全态势 – 如果你使用 agent、工具、插件或其他方法将模型连接到其他系统,请特别注意你的安全态势。模型可能会以意想不到的方式与这些系统交互。遵循最小特权访问的常规做法,例如限制来自其他系统的传入 prompts。
快速发展的框架 – 像 LangChain 这样的开源框架正在快速发展。使用微服务方法将其他组件与这些不太成熟的框架隔离开来。
容量
我们可以在两个上下文中考虑容量:推理和训练模型数据管道。当组织构建自己的管道时,容量是一个考虑因素。在选择运行工作负载的实例时,CPU 和内存需求是最大的两个需求。
能够支持生成式 AI 工作负载的实例可能比普通的通用实例类型更难获得。实例灵活性可以帮助容量和容量规划。根据你运行工作负载的 AWS 区域,可以使用不同的实例类型。
对于关键的用户旅程,组织需要考虑预留或预配置实例类型,以确保在需要时的可用性。这种模式实现了静态稳定的架构,这是一种弹性最佳实践。要了解更多关于 AWS Well-Architected Framework 可靠性支柱中的静态稳定性,请参阅使用静态稳定性防止双峰行为。
可观察性
除了通常收集的资源指标(如 CPU 和 RAM 利用率)之外,如果你在 Amazon SageMaker 或 Amazon EC2 上托管模型,还需要密切监控 GPU 利用率。如果基础模型或输入数据发生变化,GPU 利用率可能会出现意外变化,而 GPU 内存耗尽可能会使系统进入不稳定状态。
在更高的技术栈中,你还需要跟踪系统中的调用流,捕获 agent 和工具之间的交互。由于 agent 和工具之间的接口没有 API 契约那样正式定义,因此你应该监控这些跟踪,不仅要监控性能,还要捕获新的错误场景。要监控模型或 agent 的任何安全风险和威胁,你可以使用 Amazon GuardDuty 等工具。
你还应该捕获 embedding vectors、prompts、上下文和输出的基线,以及它们之间的交互。如果这些随时间变化,可能表明用户正在以新的方式使用系统,参考数据没有以相同的方式覆盖问题空间,或者模型的输出突然不同。
灾难恢复
对于任何工作负载,拥有具有灾难恢复策略的业务连续性计划都是必须的。生成式 AI 工作负载也不例外。了解适用于你的工作负载的故障模式将有助于指导你的策略。如果你为工作负载使用 AWS 托管服务,如 Amazon Bedrock 和 SageMaker,请确保该服务在你的恢复 AWS 区域中可用。在撰写本文时,这些 AWS 服务本身不支持跨 AWS 区域复制数据,因此你需要考虑灾难恢复的数据管理策略,并且可能还需要在多个 AWS 区域中进行微调。
————————————————
原文链接:https://blog.csdn.net/ertfafrtrtrtyr/article/details/142412660