AI 计算基础设施的战略转折点分析
核心技术范式转移
我们正处于计算架构的重大转折点。第一个根本性转变是从传统的 CPU 编程范式,向以 GPU 为核心的神经网络运算模式转移。这不仅仅是硬件架构的改变,更代表了整个软件开发和应用部署方式的革新。第二个转变则是在这个新的基础设施之上,构建全新的 AI 能力层,这将彻底改变我们对计算能力的理解和应用方式。
理解这一转变至关重要,因为它可能预示着行业的重大变化。如果预训练不再能对 LLM 模型产生巨大的增量改进,而将重点转移到后训练和推理扩展上,那么投资的重心可能也会发生变化。训练后扩展意味着通过人类或机器反馈进行强化学习来改进模型。在这里,问题不在于你有多少 GPU,而更在于你的数据质量。虽然有些人认为我们有从旧版本 LLM 中生成的合成数据,但也有人认为合成数据不足以实现重大改进。
前谷歌 Deepmind 高级科学家在谈到合成数据时这样说道:"现在,他们都在做合成数据,以解决这里和这里的问题,但 Scaling Law 不需要合成数据。实际上,它需要的是所谓的独立同分布数据(independent and identically distributed data),即 IDD 数据。它需要新数据。它不希望只是重构旧数据。我认为,在 LLM 领域,如果你只谈论纯文本 LLM,那么从某种意义上说,下一代模型不会比之前的模型好多少。"
关于推理缩放范式,Nvidia 面临的最大问题是他们在这一市场中的竞争地位如何。当 o1 问世时,Nvidia 过去和将来都会在推理市场上占据一席之地。不过,它的竞争地位与预训练市场不同,后者没有真正的竞争对手。在推理市场,由于竞争更激烈,复杂性更低,我预计利润率将在较长时期内反映出这一点。
我认为,在未来 12 个月内,除了少数几个重大例外情况外,人们将能发现在英伟达或 AMD 上运行的推理工作几乎是一样的。
市场竞争格局分析
当前市场格局中,云服务提供商(CSP)主导了数据中心市场的发展方向。数据显示,CSP 已占据数据中心收入的 50% 以上,主要参与者包括 AWS、Azure、GCP 和 Oracle Cloud,整体市场同比增长超过 200%。
在 GPU 市场竞争方面,AMD 的进步引人注目。最新基准测试显示,AMD 的 MI250 已经能够达到 Nvidia A100 性能的 73-80%,而新一代的 MI300X 在某些场景下甚至超越了 Nvidia 的 H100,这主要得益于其更大的内存容量和带宽优势。然而,Nvidia 的 CUDA 生态系统仍然保持着显著优势,其成熟度、广泛的支持度以及对 LLM 的优化程度都领先于竞争对手。
LLM 技术发展的三个维度
在预训练方面,我们观察到单纯依靠增加参数量和算力的策略正面临边际效益递减的问题。这促使技术团队必须探索更高效的模型架构和训练方法。
后训练优化变得越来越重要,特别是基于人类反馈的强化学习技术。在这个阶段,数据质量的重要性已经超过了纯计算规模的影响。
推理时优化则是另一个重要维度,这一领域因 OpenAI o1 模型的出现而备受关注。
关于合成数据的应用,业界需要正视其局限性。独立同分布数据的重要性不容忽视,如何在数据多样性和真实性之间取得平衡,成为一个关键课题。
深度学习中的 GPU 使用模式分析
在深度学习领域,GPU 的使用可以分为三个主要阶段,每个阶段都有其独特的资源利用特征:
预训练阶段是最为密集的计算阶段,需要大量的 GPU 资源来支持前向传播和反向传播的计算过程。这个阶段的 GPU 利用率极高,同时对内存和处理能力都有极高要求。
后训练阶段主要进行模型优化,如量化等操作,虽然计算强度低于预训练,但仍需要相当的 GPU 资源来支持各种调整和评估工作。
推理阶段的 GPU 使用强度通常低于训练阶段,但实际资源消耗会随着批处理大小的变化而显著波动,较大的批处理量可以通过最大化资源使用来提高整体利用效率。
技术战略思考与未来展望
在计算基础设施层面,需要深入考虑混合计算架构的采用策略。考虑到 AMD 和 Nvidia 在不同场景下的优势,合理配置不同厂商的 GPU 资源可能成为一个可行的策略。在推理和后训练优化场景中,AMD 的性价比优势值得关注,而在需要更成熟生态系统支持的预训练场景,Nvidia 的解决方案仍然具有不可替代的优势。
未来 12 个月,随着 AMD 等厂商持续改进其硬件性能和软件生态,推理市场的竞争将进一步加剧。模型优化的方向将从单纯的规模扩张转向效率提升,特定场景的优化将变得更加重要。在基础设施投资方面,需要更加注重平衡性能、成本和生态系统支持度这几个关键因素。
在这个快速演进的领域中,技术决策者需要保持开放和灵活的心态,密切关注各家厂商的技术进展,在确保技术领先的同时,也要注重成本效益,为企业在 AI 时代的长期发展奠定坚实基础。对于技术领导者而言,理解并把握这些变化趋势,将直接影响企业的技术竞争力和市场地位。