您能以一半的成本构建像ChatGPT这样的大型语言模型吗?
大型语言模型的成本减半:LiGO技术解析
引言
大型语言模型(LLM)如GPT-3和ChatGPT通过提供自然语言理解和内容生成能力,彻底改变了人工智能领域。然而,这些模型的开发成本高昂,限制了其可及性和进一步的研究。据估计,训练GPT-3的成本约为500万美元。尽管如此,微软看到了其潜力,在2019年投资了10亿美元,在2023年又投资了100亿美元于OpenAI的GPT-3和ChatGPT项目。
LLM是基于变压器架构的机器学习模型,通过在大量文本数据上进行训练,用于NLP应用。它们利用注意力机制进行问答、机器翻译、情感分析等NLP任务。
大型语言模型的成本构成
构建LLM的三大成本包括:
- 计算资源:构建LLM需要大量的计算资源来训练大规模数据集。它们必须处理数十亿个参数,并从大规模文本数据中学习复杂模式。
- 能源消耗:构建LLM所需的密集计算资源导致显著的能源消耗。例如,训练1750亿参数的GPT-3使用了10000个V100 GPU,相当于355万个GPU小时。如此高的能源消耗对环境也有重大影响。
- 数据存储与管理:LLM在大规模数据集上进行训练。例如,GPT-3在一个庞大的文本语料库上进行训练,包括Common Crawl、WebText2、Books1、Books2和维基百科等来源。收集、策划和存储这些数据集需要大量的基础设施投资。
LiGO技术:大型语言模型成本减半
LiGO(线性增长算子)是一种由MIT研究人员开发的新技术,可以将LLM的训练计算成本降低50%。该方法涉及从较小的预训练模型初始化较大模型的权重,从而实现神经网络的高效扩展。
LiGO技术通过利用数据驱动的线性增长算子,结合深度和宽度算子,实现了与从头开始训练大型模型相比,在减少计算成本和训练时间的同时,保持了大型模型的性能优势。
实验结果表明,与从头开始训练BERT-Base相比,通过重用BERT-Small模型,LiGO技术节省了44.7%的FLOPs和40.7%的墙钟时间。LiGO增长算子在高效训练方面优于StackBERT、MSLT、bert2BERT和KI。
使用LiGO等训练优化技术的益处
LiGO是一种高效的神经网络训练方法,具有以下益处:
- 更快的训练:LiGO技术的主要优势是训练速度更快,可以在一半的时间内训练LLM,提高生产力并降低成本。
- 资源高效:LiGO是资源高效的,因为它减少了墙钟时间和FLOPs,使得训练大型变压器模型的方法更具成本效益和环保。
- 泛化能力:LiGO技术改善了语言和视觉变换器的性能,表明它是一种可泛化的技术,可以应用于各种任务。
结论
构建商业AI产品只是AI系统总体成本的一个方面。另一个重要组成部分是日常运营成本。例如,OpenAI每天使用ChatGPT回答查询的成本约为70万美元。研究人员预计将继续探索在训练期间使LLM具有成本效益并在运行时更易于访问的方法。
更多AI相关内容,请访问unite.ai。