当前位置: 首页 > article >正文

李宏毅LLM——大模型+大资料的神奇力量

在这里插入图片描述

文章目录

  • 大模型的重要性
    • 顿悟时刻
  • 大资料的重要性
    • 数据预处理
    • 不一样的做法:KNN LM

对应视频P12-P14

大模型的重要性

模型参数和数据集越大,文字接龙的错误率越低
在这里插入图片描述

顿悟时刻

在这里插入图片描述
当模型超过10B-20B时,会突然顿悟
在这里插入图片描述
启示:不能只看最终结果。要看推理过程的提升
在这里插入图片描述
chain of thoughut、instruction tuning 只有在大模型才能起作用
在这里插入图片描述
语言模型知不知道自己心虚呢?
在这里插入图片描述
瞎掰的时候是心虚的
在这里插入图片描述
在某些任务上,有没有可能模型越大,结果越差呢?
在这里插入图片描述
变差只是所谓的“大模型”还不够大
在这里插入图片描述
但是U型曲线怎么出现的呢?
小模型:随机乱编
中模型:一知半解
大模型:计算期望
在这里插入图片描述
模型还能不能更大呢?
包含很多模组,但是只调用其中一部分模组
在这里插入图片描述

大资料的重要性

需要多少资料才能让大模型学到东西呢?
两个能力:文法用词和对世界的理解
在这里插入图片描述

数据预处理

内容过滤:谷歌的安全搜索,去除有害内容
在这里插入图片描述
去除重复资料
在这里插入图片描述

固定运算资源下,要大模型还是大资料?怎么找到平衡点?
目前的趋势是发展更大模型,但这是明智的选择吗?
在这里插入图片描述
固定的运算资源下,性能测试
都是U型曲线
在这里插入图片描述
标出最低点,找出最优曲线
在这里插入图片描述
小模型大资料相较于大模型小资料更优
在这里插入图片描述
结论:现在更需要的是大资料
在这里插入图片描述
快速让模型变强,文字接龙的正确率并不代表结果,Instruction-tuning可以帮助我们得到更好的结果
在这里插入图片描述

花费很少的运算资源就可以达到很显著的提升
在这里插入图片描述

例子:如果不做Instruction-tuning,大模型会以为我们需要更多的数学题,而做了Instruction-tuning后,大模型就会知道我们需要的是正确的答案
在这里插入图片描述

对决:小模型经过人类老师的训练可以打败不经过训练的大模型
在这里插入图片描述

应该根据人类的使用来调整模型
在这里插入图片描述

不一样的做法:KNN LM

一般的LM的方式:
在这里插入图片描述
KNN LM的做法:
在这里插入图片描述
100M资料+外加3B资料,可以比3B资料结果更好。
KNN-LM不能单独使用,需要和LM结合。
在这里插入图片描述
为什么KNN LM没有流行?
计算距离花费太多时间,是一般LM速度的十分之一
在这里插入图片描述


http://www.kler.cn/a/231104.html

相关文章:

  • 一篇文章了解Python中的对象(狠狠爱住)
  • CSS太极动态图
  • 2024-02-07(Sqoop,Flume)
  • 02-OpenFeign-微服务接入
  • 麒麟信安连续两年获评信创工委会“卓越贡献成员单位”荣誉称号
  • Android开发--实时监测系统+部署故障诊断算法
  • 基于YOLOv8的暗光低光环境下(ExDark数据集)检测,加入多种优化方式---DCNv4结合SPPF ,助力自动驾驶(一)
  • 【C语言】三子棋游戏实现代码
  • 【翻译】 Processing的安卓项目构建(译者用的是Android Studio)
  • 蓝桥杯(Web大学组)2022国赛真题:新鲜的蔬菜
  • 使用Python构建简单的任务调度器
  • 83 CTF夺旗-Python考点SSTI反序列化字符串
  • 【从0上手Cornerstone3D】如何使用CornerstoneTools中的工具之工具介绍
  • 网易腾讯面试题精选----90道设计模式面试题及答案
  • C++面向对象编程:explicit关键字
  • seatunnel数据集成(一)简介与安装
  • 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距
  • Linux安装Java
  • ppi rust开发 python调用
  • MySQL查询缓存