当前位置: 首页 > article >正文

您能以一半的成本构建像ChatGPT这样的大型语言模型吗?

大型语言模型的成本减半:LiGO技术解析

引言

大型语言模型(LLM)如GPT-3和ChatGPT通过提供自然语言理解和内容生成能力,彻底改变了人工智能领域。然而,这些模型的开发成本高昂,限制了其可及性和进一步的研究。据估计,训练GPT-3的成本约为500万美元。尽管如此,微软看到了其潜力,在2019年投资了10亿美元,在2023年又投资了100亿美元于OpenAI的GPT-3和ChatGPT项目。

LLM是基于变压器架构的机器学习模型,通过在大量文本数据上进行训练,用于NLP应用。它们利用注意力机制进行问答、机器翻译、情感分析等NLP任务。

大型语言模型的成本构成

构建LLM的三大成本包括:

  1. 计算资源:构建LLM需要大量的计算资源来训练大规模数据集。它们必须处理数十亿个参数,并从大规模文本数据中学习复杂模式。
  2. 能源消耗:构建LLM所需的密集计算资源导致显著的能源消耗。例如,训练1750亿参数的GPT-3使用了10000个V100 GPU,相当于355万个GPU小时。如此高的能源消耗对环境也有重大影响。
  3. 数据存储与管理:LLM在大规模数据集上进行训练。例如,GPT-3在一个庞大的文本语料库上进行训练,包括Common Crawl、WebText2、Books1、Books2和维基百科等来源。收集、策划和存储这些数据集需要大量的基础设施投资。

LiGO技术:大型语言模型成本减半

LiGO(线性增长算子)是一种由MIT研究人员开发的新技术,可以将LLM的训练计算成本降低50%。该方法涉及从较小的预训练模型初始化较大模型的权重,从而实现神经网络的高效扩展。

LiGO技术通过利用数据驱动的线性增长算子,结合深度和宽度算子,实现了与从头开始训练大型模型相比,在减少计算成本和训练时间的同时,保持了大型模型的性能优势。

实验结果表明,与从头开始训练BERT-Base相比,通过重用BERT-Small模型,LiGO技术节省了44.7%的FLOPs和40.7%的墙钟时间。LiGO增长算子在高效训练方面优于StackBERT、MSLT、bert2BERT和KI。

使用LiGO等训练优化技术的益处

LiGO是一种高效的神经网络训练方法,具有以下益处:

  1. 更快的训练:LiGO技术的主要优势是训练速度更快,可以在一半的时间内训练LLM,提高生产力并降低成本。
  2. 资源高效:LiGO是资源高效的,因为它减少了墙钟时间和FLOPs,使得训练大型变压器模型的方法更具成本效益和环保。
  3. 泛化能力:LiGO技术改善了语言和视觉变换器的性能,表明它是一种可泛化的技术,可以应用于各种任务。

结论

构建商业AI产品只是AI系统总体成本的一个方面。另一个重要组成部分是日常运营成本。例如,OpenAI每天使用ChatGPT回答查询的成本约为70万美元。研究人员预计将继续探索在训练期间使LLM具有成本效益并在运行时更易于访问的方法。

更多AI相关内容,请访问unite.ai。


http://www.kler.cn/a/272144.html

相关文章:

  • 二、vue智能Ai对话(高仿通义千问)流式进阶版
  • C语言小项目——通讯录
  • 亚博microros小车-原生ubuntu支持系列:1 键盘控制
  • 【RAG落地利器】向量数据库Chroma入门教程
  • Element中为什么不使用prop重置无法生效
  • 安装 uv
  • ChatGPT提示词方法的原理
  • Selenium-webdriver_manager判断是否已经下载过驱动(复用缓存驱动)
  • 用python写网络爬虫:3.urllib库进一步的使用方法
  • MySQL_数据库图形化界面软件_00000_00001
  • 一个完整的上传文件示例
  • stable diffusion webui 搭建和初步使用
  • 生成式人工智能在金融领域:FinGPT、BloombergGPT及其未来
  • 数学建模-估计出租车的总数
  • 重拾C++之菜鸟刷算法第13篇---回溯算法
  • Linux进程管理:(六)SMP负载均衡
  • Spring Web MVC入门(3)
  • Nacos与Eureka的使用与区别
  • 【Spring 篇】SpringMVC的请求:舞台上的开端
  • RUST egui体验
  • 玩转C语言——数组初探
  • Linux下进程的调度与切换
  • 模块化项目Eclipse测试网零撸教程
  • 苍穹外卖swagger
  • python的集合应用
  • 练习8 Web [GYCTF2020]Blacklist