当前位置：首页 > article >正文

3.大语言模型LLM的公开资源（API、语料库、算法库）

article 2025/2/22 16:53:58

考虑到技术问题的挑战和计算资源的巨大需求，开发或再现大语言模型绝非易事。一种可行的方法是在现有的大语言模型的基础上进行开发，即重复使用公开可用的资源进行增量开发或实验研究。下面简要整理了用于开发大语言模型的公开可用的资源，包括公开的模型检查点（或API）、语料库和算法库。

1.公开可用的模型检查点或API

考虑到模型预训练的巨大成本，训练良好的模型检查点对于研究组织开展大语言模型的研究和开发至关重要。由于参数规模是使用大语言模型时需要考虑的关键因素，为了帮助用户根据其资源预算确定适当的研究内容，我们将这些公开模型分为两个规模级别（百亿参数量级别和千亿参数量级别）。此外，也可以直接使用公开的API执行推理任务，而无需在本地运行模型。接下来，我们对公开可用的模型检查点和API进行介绍。

百亿参数量级别的模型：这类模型的参数规模除了LLaMA（最大版本65B参数）和NLLB（最大版本54.5B参数），大多在10B至20B之间。这一参数范围内的模型包括mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5、和mT0等。其中，Flan-T5（11B版本）可以作为研究指令微调的首选模型，因为它从三个方面探索了指令微调：增加任务数量、扩大模型规模和使用思维链提示数据进行微调。CodeGen（11B）是一个为生成代码设计的自回归语言模型，可用作探索代码生成能力的候选模型，其提出了一个新的基准测试MTPB，专门用于多轮程序合成，由115个专家生成的问题组成，为了解决这些问题，需要大语言模型获得足够的编程知识（例如数学、数组操作和算法）。对于多语言任务，mT0（13B）可能是一个比较好的候选模型，因为它在多语言任务中使用多语言提示进行微调。此外，对于中文的下游任务，PanGu-α具有较好的表现，特别是在零样本或小样本的设置下，该模型基于深度学习框架MindSpore开发，拥有多个参数版本（最大版本200B参数），而最大的公开版本只有13B参数。此外，作为最近发布的模型，LLaMA（65B）在指令遵循相关的任务中展现了卓越的性能。由于其开放性和有效性，LLaMA引起了研究界的广泛关注，许多工作致力于微调或继续训练其不同的模型版本以实现新模型或工具的开发。
百亿参数量级别的模型通常需要数百甚至上千个GPU或TPU。例如，GPT-NeoX-20B使用了12个微服务器，每个服务器配备了8个NVIDIA A1000-SXM4-40GB GPU，LLaMA使用了2048个A100-80G GPU。为了准确估计所需的计算资源，我们还是建议使用衡量涉及计算量的指标，例如计算FLOPS（每秒浮点数运算次数）。
千亿参数量级别的模型：在这类模型中，只有少数几个模型进行了公开发布。其中，OPT、OPT-IML、B