当前位置：首页 > article >正文

【LLM:Fan】

article 2025/2/21 3:03:10

扩展指令微调语言模型

有什么新内容？

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

本文探讨了扩展指令微调(opens in a new tab)的好处，以及它如何提高各种模型（PaLM、T5）、提示设置（零样本、少样本、CoT）和基准（MMLU、TyDiQA）的性能。这是通过以下方面来探讨的：扩展任务数量（1.8K个任务）、扩展模型大小以及在思维链数据上微调（使用了9个数据集）。

微调过程：

1.8K个任务被表述为指令，并用于微调模型
使用有范例和无范例、有CoT和无CoT的方式

微调任务和保留任务如下：

能力和关键结果

指令微调随着任务数量和模型大小的增加而扩展良好；这表明需要进一步扩展任务数量和模型大小
将CoT数据集添加到微调中可以在推理任务上获得良好的性能
Flan-PaLM具有改进的多语言能力；在一次性TyDiQA上提高了14.9%；在代表性不足的语言中进行算术推理的提高了8.1%
Plan-PaLM在开放式生成问题上也表现良好，这是改进可用性的良好指标
改进了负责任的AI（RAI）基准的性能
Flan-T5指令微调模型展示了强大的少样本能力，并且优于T5等公共检查点

**扩展微调任务数量和模型大小的结果：**同时扩展模型大小和微调任务数量预计将继续改善性能，尽管扩展任务数量的回报已经减少。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

**在非CoT和CoT数据上微调的结果：**在非CoT和CoT数据上联合微调可以提高两个评估的性能，相比于只微调其中一个。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

此外，自一致性结合CoT在几个基准上实现了SoTA结果。CoT + 自一致性还显著提高了涉及数学问题的基准结果（例如MGSM、GSM8K）。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

CoT微调在BIG-Bench任务上通过短语“让我们逐步思考”实现了零样本推理。一般来说，零样本CoT Flan-PaLM优于没有微调的零样本CoT PaLM。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

以下是PaLM和Flan-PaLM在未见任务中进行零样本CoT的一些演示。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

以下是更多的零样本提示示例。它显示了PaLM模型在重复和不回复指令的情况下在零样本设置中的困难，而Flan-PaLM能够表现良好。少量范例可以缓解这些错误。

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

以下是Flan-PALM模型在几种不同类型的具有挑战性的开放式问题上展示更多零样本能力的示例：

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

图片来源：Scaling Instruction-Finetuned Language Models(opens in a new tab)

图片来源：Scaling Instruction-Finetuned Language Models

http://www.kler.cn/a/303471.html

相关文章：

踩坑记：Poco库，MySql，解析大文本的bug

递归、排序、二分查找(C语言实现)

mybatis与concat实现模糊查询、mybatis中模糊查询concat传入参数为空时的解决方法

nacos安装使用调优及面试题分享

Apple发布会都有哪些亮点？如何在苹果手机和电脑上录制屏幕？

MATLAB默认工作路径修改

串口通信数据包介绍和包结构定义实例

【Echarts】vue3打开echarts的正确方式

real, dimension(3) :: rho1 和 real :: rho1(3) 的区别

C++学习笔记----7、使用类与对象获得高性能（一）---- 书写类（1）

element表格合并列数据相同合并单元格

【Flutter 面试题】无需上下文进行路由跳转原理是怎么样的

Python用MarkovRNN马尔可夫递归神经网络建模序列数据t-SNE可视化研究

医疗报销|基于springboot的医疗报销系统设计与实现(附项目源码+论文+数据库）

RocketMQ 集群搭建详细指南

F12抓包10：UI自动化 - Elements（元素）定位页面元素

【devops】devops-git之git分支与标签使用

Kubernetes 容器与镜像管理

五、Django 路由配置

如何编写ChatGPT提示词