当前位置：首页 > article >正文

LLM（五）| Gemini：谷歌发布碾压GPT-4最强原生多模态，语言理解能力首次超过人类

article 2025/2/22 5:13:28

2023年12月6日，Google重磅发布了原生多模态大模型Gemini，碾压GPT-4，语言理解能力首次超过人类。

一、Gemini介绍

以下内容来自谷歌DeepMind首席执行官兼联合创始人Demis Hassabis代表Gemini团队：

人工智能一直是我一生工作的重点，就像我的许多研究同事一样。从十几岁时为电脑游戏编程人工智能开始，在我作为神经科学研究人员试图了解大脑工作的这些年里，我一直相信，如果我们能制造出更智能的机器，我们就能利用它们以不可思议的方式造福人类。

这个由人工智能负责任地赋予世界权力的承诺继续推动着我们在谷歌DeepMind的工作。很长一段时间以来，我们一直想建立新一代的人工智能模型，灵感来自人们理解世界和与世界互动的方式。人工智能感觉不像是一个智能软件，更像是一个有用和直观的东西：一个专家助手或助手。

今天，我们向这一愿景又迈进了一步，我们将介绍Gemini（https://deepmind.google/technologies/gemini），这是我们有史以来建立的最有能力、最通用的模型。

Gemini是谷歌团队大规模合作的结果，包括我们在谷歌研究的同事。它是从头开始构建的多模态，这意味着它可以概括和无缝理解、跨不同类型的信息进行操作和组合，包括文本、代码、音频、图像和视频。

Gemini也是我们迄今为止最灵活的模型——能够在从数据中心到移动设备的所有设备上高效运行。其最先进的能力将显著增强开发人员和企业客户利用人工智能构建和扩展的方式。

我们针对三种不同的尺寸优化了Gemini 1.0，即我们的第一个版本：

Gemini Ultra——是谷歌迄今为止创建的最强大LLM最大，能够完成高度复杂的任务，主要面向数据中心和企业级应用。

Gemini Pro--是性能最好的模型，用于广泛的任务。它会为许多谷歌的AI服务提供动力，并且从今天起，成为Bard的支柱。

Gemini Nano——是最高效的模型，用于设备端任务，可以在安卓设备上本地和离线运行，Pixel 8 Pro的用户就能马上体验到。其中，Nano-1的参数为1.8B，Nano-2为3.25B。

二、SOTA性能

我们一直在严格测试我们的Gemini模型，并评估它们在各种任务中的性能。从自然图像、音频和视频理解到数学推理，Gemini Ultra在大型语言模型（LLM）研究和开发中广泛使用的32个学术基准中的30个方面的性能超过了当前最先进的结果。

Gemini Ultra的得分为90.0%，是第一个在MMLU（大规模多任务语言理解）方面优于人类专家的模型，该模型结合了数学、物理、历史、法律、医学和伦理等57门科目来测试世界知识和解决问题的能力。

我们对MMLU的新基准方法使Gemini能够在回答难题之前使用其推理能力进行更仔细的思考，从而比仅仅使用其第一印象有了显著的改进。

Gemini Ultra在新的MMMU（https://arxiv.org/abs/2311.16502）基准测试中也获得了59.4%的最先进分数，该基准测试由跨越不同领域的多模式任务组成，需要深思熟虑的推理。

通过我们测试的图像基准，Gemini Ultra的性能优于以前的最先进的模型，而无需物体字符识别（OCR）系统的帮助，该系统可以从图像中提取文本进行进一步处理。这些基准突出了Gemini天生的多模态，并表明了Gemini更复杂推理能力的早期迹象。

PS：更多详细信息，请参阅我们的Gemini技术报告（https://goo.gle/GeminiPaper）

三、下一代功能

到目前为止，创建多模态模型的标准方法包括为不同的模式训练单独的组件，然后将它们缝合在一起，大致模拟其中的一些功能。这些模型有时擅长执行某些任务，如描述图像，但难以进行更概念化和复杂的推理。

我们将Gemini设计成天生的多模态，从一开始就对不同的模态进行预训练。然后，我们用额外的多模态数据对其进行了微调，以进一步提高其有效性。这有助于Gemini从一开始就无缝地理解和推理各种输入，远远好于现有的多模态模型，而且它的能力几乎在每个领域都是最先进的。

PS：想了解更多信息，请查阅：https://deepmind.google/technologies/gemini

四、复杂的推理

Gemini 1.0复杂的多模态推理能力可以帮助理解复杂的书面和视觉信息。这使得它在揭示大量数据中难以辨别的知识方面具有独特的技能。

它通过阅读、过滤和理解信息从数十万份文件中提取见解的非凡能力，将有助于在从科学到金融的许多领域以数字速度实现新的突破。

五、理解文本、图像、音频等

Gemini 1.0经过训练，能够同时识别和理解文本、图像、音频等，因此它能够更好地理解细微的信息，并能够回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂科目的推理。

六、高级编码

我们的第一个Gemini版本可以用世界上最流行的编程语言，如Python、Java、C++和Go，理解、解释和生成高质量的代码。它能够跨语言工作，并对复杂信息进行推理，这使它成为世界上领先的编码基础模型之一。

Gemini Ultra在几个编码基准方面表现出色，包括用于评估编码任务性能的重要行业标准HumanEval（https://arxiv.org/abs/2107.03374），以及我们的内部数据集Natural2Code，该数据集使用作者生成的源代码，而不是基于网络的信息。

Gemini还可以用作更先进的编码系统的引擎。两年前，我们推出了AlphaCode（https://deepmind.google/discover/blog/competitive-programming-with-alphacode/），这是第一个在编程比赛中达到竞争水平的人工智能代码生成系统。

使用Gemini的专业版本，我们创建了一个更先进的代码生成系统AlphaCode 2（https://goo.gle/AlphaCode2），它擅长解决竞争性编程问题，这些问题超越了编码，涉及复杂的数学和理论计算机科学。

当在与原始AlphaCode相同的平台上进行评估时，AlphaCode 2显示出巨大的改进，解决的问题几乎是原来的两倍，我们估计它的表现优于85%的参赛者，高于AlphaCode的近50%。当程序员通过定义要遵循的代码示例的某些属性来与AlphaCode2合作时，它的性能会更好。

我们很高兴程序员能够越来越多地使用功能强大的人工智能模型作为协作工具，帮助他们思考问题，提出代码设计并协助实现——这样他们就可以更快地发布应用程序并设计更好的服务。

PS：关于AlphaCode 2的更多详细信息，请参考技术报告（https://goo.gle/AlphaCode2）

七、更可靠、更可扩展、更高效

我们使用谷歌内部设计的Tensor处理单元（TPU）v4和v5e，在人工智能优化的基础设施上大规模训练Gemini 1.0。我们将其设计为我们最可靠、最可扩展的训练模式，也是我们最高效的服务模式。

在TPU上，Gemini的运行速度明显快于早期、更小、功能较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心，这些产品为数十亿用户提供服务，如搜索、YouTube、Gmail、谷歌地图、谷歌播放和安卓。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。

今天，我们宣布了迄今为止最强大、最高效、最可扩展的TPU系统Cloud TPU v5p，专为训练尖端人工智能模型而设计。下一代TPU将加速Gemini的开发，帮助开发人员和企业客户更快地训练大规模生成人工智能模型，使新产品和功能更快地到达客户手中。

八、以责任和安全为核心

在谷歌，我们致力于在我们所做的一切中推进大胆而负责任的人工智能。在谷歌的人工智能原则（https://ai.google/responsibility/principles/）和我们产品的稳健安全政策的基础上，我们正在为Gemini的多模态能力添加新的保护措施。在开发的每个阶段，我们都在考虑潜在的风险，并努力测试和缓解这些风险。

Gemini拥有迄今为止谷歌人工智能模型中最全面的安全性评估，包括偏见和毒性。我们对网络攻击、说服和自主等潜在风险领域进行了新的研究（https://deepmind.google/discover/blog/an-early-warning-system-for-novel-ai-risks/），并应用了谷歌研究公司同类最佳的对抗性测试技术（https://blog.research.google/2023/11/responsible-ai-at-google-research_16.html），以帮助在部署Gemini之前识别关键的安全问题。

为了找出我们内部评估方法中的盲点，我们正在与一组不同的外部专家和合作伙伴合作，在一系列问题上对我们的模型进行压力测试。

为了诊断Gemini训练阶段的内容安全问题，并确保其输出符合我们的政策，我们正在使用基准，如真实毒性提示（https://allenai.org/data/real-toxicity-prompts），这是一组由艾伦人工智能研究所的专家从网络上提取的具有不同程度毒性的100000个提示。有关这项工作的更多细节即将公布。

例如，为了限制伤害，我们建立了专门的安全分类器来识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器，这种分层方法旨在使Gemini对每个人都更安全、更包容。此外，我们正在继续解决模型的已知挑战，如真实性、基础、归因和确证。

责任和安全始终是我们模型开发和部署的核心。这是一项需要合作建设的长期承诺，因此我们正在与行业和更广泛的生态系统合作，通过MLCommons（https://mlcommons.org/）、前沿模型论坛（https://blog.google/outreach-initiatives/public-policy/google-microsoft-openai-anthropic-frontier-model-forum/）及其人工智能安全基金（https://blog.google/outreach-initiatives/public-policy/google-microsoft-anthropic-open-ai-frontier-model-forum-executive-director/）和我们的安全人工智能框架（SAIF）（https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework/）等组织来定义最佳实践并设定安全和安保基准，旨在帮助减轻公共和私营部门人工智能系统特有的安全风险。在开发Gemini的过程中，我们将继续与世界各地的研究人员、政府和民间社会团体合作。

九、让Gemini走向世界

Gemini 1.0目前正在一系列产品和平台上推出：

谷歌产品中的Gemini Pro

我们通过谷歌产品将Gemini带给数十亿人。

从今天开始，Bard将使用经过微调的Gemini Pro版本（https://blog.google/products/bard/google-bard-try-gemini-ai）进行更高级的推理、规划、理解等。这是Bard推出以来最大的一次升级。它将在170多个国家和地区提供英文版本，我们计划在不久的将来扩展到不同的模式，并支持新的语言和地点。

我们还将Gemini带到Pixel（https://blog.google/products/pixel/pixel-feature-drop-december-2023/）。Pixel 8 Pro是第一款运行Gemini Nano的智能手机，它正在为记录器应用程序中的汇总等新功能提供动力，并从WhatsApp开始在Gboard中的智能回复中推出，明年还会推出更多的消息应用程序。

在接下来的几个月里，Gemini将出现在我们的更多产品和服务中，如搜索、广告、Chrome和Duet AI。

我们已经开始在搜索中试用Gemini，它为用户提供了更快的搜索生成体验（SGE）（https://labs.google/sge/），在美国，英语延迟减少了40%，同时质量也有所提高。

十、与Gemini一起建造

从12月13日开始，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI（https://cloud.google.com/vertex-ai）中的Gemini API访问Gemini Pro。

谷歌人工智能工作室是一个免费的基于网络的开发工具，可以使用API键快速原型和启动应用程序。当需要一个完全管理的人工智能平台时，Vertex AI允许定制Gemini，并提供完全的数据控制，并受益于谷歌云的额外功能，以实现企业安全、安全、隐私以及数据治理和合规。

安卓开发者还可以通过AICore构建Gemini Nano，这是我们最高效的设备上任务模型，AICore是安卓14中的一种新系统功能，从Pixel 8 Pro设备开始。注册AICore的早期预览（https://android-developers.googleblog.com/2023/12/a-new-foundation-for-ai-on-android.html）。