当前位置：首页 > article >正文

谷歌TPU 6.0：AI加速的新引擎及最新的3个模型

article 2025/2/22 16:39:36

去年十二月，谷歌发布了最新的TPU 5.0。紧接着在今年的Google I/O大会上，谷歌又宣布了TPU 6.0。相比于TPU 5.0，TPU 6.0的速度提升了将近五倍。而TPU 5.0的速度又比之前的TPU 4.0快了约2.7到2.8倍。那么，为什么我要提到这些？因为原始的Gemini超大模型就是在TPU 4.0上进行训练的。训练时使用了如此多的TPU 4.0，以至于不得不将其分布在多个数据中心。

随着TPU 5.0和TPU 6.0的出现，这为谷歌打开了一个全新的世界，使其能够开发更多的模型，提供这些模型并进行各种实验。而在今天的Google AI Studio中，我们看到了这些实验的最新发布。如今，你可以在Google AI Studio中试用三种新的Gemini模型，分别是Gemini 1.5 Pro实验模型0827、1.5 Flash实验模型和新的1.5 Flash 80亿参数模型。是的，你没看错，一个拥有80亿参数的模型，相当于Llama 3的规模。

如果你一直在关注arXiv，最近的Gemini 1.5论文更新中包含了大量关于这个模型的细节。这是一个Flash版本的模型，我要强调的是，这只是一个实验。而这也为我们展示了Gemini团队的工作方向：他们不断探索模型的新版本、新的微调、不同的数据集，并且通过新的TPU来加速这些实验。

新的Gemini模型：探索与创新

在这篇论文中，他们讨论了Flash 8B模型的架构、优化和数据混合精炼，这些都继承自其更大的Flash模型。这个模型可以处理一百万个token，与之前的大模型相同。关键的区别在于，由于其规模，它基本上是为高吞吐量和低延迟的使用场景优化的。这是一个市场上越来越重要的领域：你需要一个能够快速响应的模型，但同时仍然是一个优秀的模型。人们一直在转向像haiku、原始的Gemini Flash模型、GPT-4o mini等模型。

这个实验的目的是看看人们是否对比现有的模型更快的模型感兴趣，并且能够快速处理大量token。在论文中，他们讨论了这个模型的使用案例，其中一个是大规模数据标注。显然，这种模型可以在分类、提取等任务中表现得非常出色。

高吞吐量代理服务

另一个我个人觉得有趣的使用案例是高吞吐量代理服务。当你希望代理能快速执行大量调用时，这种模型非常适合。无论是总结、简单的决策还是提取你想要的信息，这个模型都能高效地完成这些任务。然后，你还可以选择使用不同的模型来做需要更高智能的特定决策。

这个模型的另一个有趣使用案例是多模态性。比如让它检查图片中是否有某物体，图片中是否有文字，文字内容是什么等。它在这些任务上表现得非常出色且快速。

性能基准测试

在论文中，他们提供了一系列基准测试。显然，Flash 8B在某些推理任务和MMLU等方面的表现不如更大的Flash模型。其目标主要是快速响应，而不是高智能。

新的实验模型

除了Flash 8B模型，谷歌还发布了两个新的实验模型。一个是最新的Pro版本，Gemini团队声称这是他们发布的最好的Gemini Pro 1.5版本。同样，新的Flash实验模型也非常值得一试。由于这些是实验模型，它们都在0827日期的独立端点上发布。

在Lmsys聊天机器人竞技场的更新中，这些模型已经在测试了一段时间。新的Gemini Pro现在在排行榜上排名第二，仅次于最新的GPT-4o。而新的Gemini Flash也大幅跃升至第六名。最后，新的Gemini Flash 8B不仅超越了Gemma 2 90亿模型，还与Llama 3 70B级别相当。这表明一些公司确实在努力通过数据混合来大幅提升这些模型的性能。