当前位置：首页 > article >正文

NVIDIA发布Nemotron-70B-Instruct，超越GPT-4o和Claude 3.5的AI模型

article 2024/10/26 8:15:25

一、Nemotron-70B-Instruct 是什么

Nemotron-70B-Instruct 是由 NVIDIA 基于 Meta 的 Llama 3.1-70B 模型开发的先进大语言模型（LLM）。该模型采用了新颖的神经架构搜索（Neural Architecture Search，NAS）方法和知识蒸馏技术，以提高模型的准确性和效率。Nemotron-70B-Instruct 主要用于生成高质量的文本响应，适用于各种复杂任务，如推理、文本生成和摘要等。

它在多个自动对齐基准测试中表现优异，击败了包括 GPT-4o 和 Claude 3.5 Sonnet 在内的 140 多个开闭源模型，仅次于 OpenAI 的最新模型 o1。

1.1 项目地址

Nemotron-70B-Instruct 的项目地址可以在 NVIDIA 的官方文档中找到，具体链接为：

NVIDIA NeMo Framework User Guide | MeoAI
NVIDIA NGC

1.2 排行榜信息

截至 2024 年 10 月 1 日，Nemotron-70B-Instruct 在以下基准测试中均排名第一：

Arena Hard 上得分为 85.0
AlpacaEval 2 LC（已验证）得分为 57.6
MT Bench (GPT-4-Turbo) 得分为 8.98 这些分数显示了 Nemotron-70B-Instruct 在 AI 语言理解和生成方面的领先地位。

这些得分使其超越了许多知名模型，包括 OpenAI 的 GPT-4o（得分 79.3）和 Anthropic 的 Claude 3.5 Sonnet（得分 79.2）

1.3 发布时间

Nemotron-70B-Instruct 模型是在 2024 年 10 月 16 日发布的。

二、功能特色

高准确性与效率：
- Nemotron-70B-Instruct 在多个基准测试中表现出色，例如 Arena Hard、AlpacaEval 2 LC 和 MT Bench，均获得了最高分。
- 该模型在推理速度上比参考模型快 2.2 倍，同时保持几乎相同的准确性。
优化的架构：
- 使用 NAS 技术和知识蒸馏方法，Nemotron-70B-Instruct 通过减少显存占用和内存带宽，降低了浮点运算次数（FLOPs），从而提高了模型的效率。
RLHF 微调：
- 采用了人类反馈强化学习（RLHF）技术，使用 REINFORCE 算法进行微调，使模型更符合人类偏好。
高质量训练数据：
- 使用了 21,362 个 prompt-responses 数据对进行训练，这些数据经过精心设计，以确保模型生成的响应更有帮助、事实正确、连贯，并且可以根据复杂性和详细程度进行定制。
适用广泛的推理引擎：
- 支持 NVIDIA Ampere、Hopper 和 Turing 微架构，以及 Linux 操作系统。推理引擎使用 Triton。

技术创新和优化

它在 AI 语言模型排行榜上的表现非常出色，主要得益于以下几个方面：

混合训练方法：Nemotron 在训练过程中采用了一种创新的混合训练方法，结合了 Bradley-Terry 和 Regression 两种策略来训练奖励模型。这种方法旨在提高模型输出的质量和准确性，通过结合两种策略的优点，解决了单一方法的局限性。
高质量的训练数据：Nemotron 使用了 21,362 个 prompt-responses 数据对进行训练，这些数据都是为了使模型更符合人类偏好而设计的，包括有用性、准确性、连贯性、复杂性和冗长程度等。此外，数据注释过程中，每一对回应都经过 3-5 名标注者的评价，并提供文字说明，增强了数据的透明度和上下文信息。
严格的数据预处理：研究人员进行了严格的数据预处理步骤，以确保数据质量。例如，他们会识别出每个任务中相似度最高的三个偏好注释，然后取这三个注释的平均值并四舍五入到最接近的整数，以此作为该任务的整体偏好得分。同时，过滤掉那些标注者意见分歧较大的样本，有效提升了数据的可靠性和一致性。
神经架构搜索（NAS）：Nemotron 模型使用了一种新颖的神经架构搜索（Neural Architecture Search，NAS）方法，这种方法可以生成高度准确和高效的模型。NAS 方法为用户提供了在准确性和效率之间选择最佳平衡的灵活性。
知识蒸馏：Nemotron 模型还使用了知识蒸馏技术，这是一种压缩模型的技术，可以通过从大型模型中提取知识并将其传递给小型模型来提高小型模型的性能。
优化的推理性能：与参考模型相比，Nemotron 模型的推理速度快 2.2 倍，同时保持几乎相同的准确性。该模型提供了一系列新的机会，同时减少了内存占用，因此可以在推理期间在单个 GPU 上运行 4 倍以上的工作负载。

三、定价信息

目前，关于 Nemotron-70B-Instruct 的具体定价信息尚未公开。然而，NVIDIA 提供了免费的托管推理服务，并且兼容 OpenAI 的 API 接口，使得更多企业能够获取并使用先进的 AI 技术。

四、如何使用

硬件要求：至少需要一台配备 4 块 40GB 或 2 块 80GB NVIDIA GPU 的机器，以及 150GB 的可用磁盘空间。
软件集成：支持 NVIDIA NeMo Framework，用户可以通过 NeMo Framework 进行模型的部署和微调。
部署步骤：详细的部署步骤可以参考 NVIDIA NeMo Framework 的文档。用户可以通过克隆 NeMo-Framework-Launcher 仓库并启动 Docker 容器来开始使用。
API 使用：提供与 OpenAI 兼容的 API 接口，用户可以通过调用 API 来试用 Nemotron 的托管推理服务。