当前位置：首页 > article >正文

SELF-INSTRUCT: Aligning Language Modelswith Self-Generated Instructions 学习

article 2025/2/22 5:12:01

指令微调就是要训练模型执行用户的要求的能力。

文章首先说“指令微调”数据集经常是人工生成，有数量少等缺点。文章提供了一个让语言模型自己生成指令微调数据，自己学习的方法。首先会让一个语言模型自己生成要求，输入和输出，然后去除低质量，重复的例子，得到的数据集再去训练这个语言模型。接下来是流程中的一些细节：

1，从人工生成的初始任务池中选出8个的instruction作为例子交给模型，让它生成类似的instruction。

如图，给8个实例，然后让模型继续生成。

2，让模型分辨这个instruction是不是分类任务。

如图，给模型几个例子，让他知道什么叫分类任务，什么叫非分类任务，然后然他分辨一下自己刚刚生成的任务是不是分类任务。

3，实例生成，也就是input,output的生成。这一步中，第二步的工作就要发挥作用了。文章表示在分类任务中，先生成output再生成input更好，其他的任务都是先生成input再生成output。

4.筛选。文章使用ROUGE-L similarity（Rouge-L是基于最长公共子序列的相似度评价指标。它寻找参考摘要和文摘之间的最长公共子序列，并计算其相似度分数。）计算新instruction和已有instruction之间的相似度，只有新instruction和每一个旧instruction相似度都不超过0.7的时候它才会被采纳。在input,output方面，筛掉和旧例子完全一样或者input一样output不一样的。

5.微调。把新得到的数据喂给模型，多弄一些花样（比如修改一下格式之类的）给他训练

基本结构就是这样，接下来是收集到的数据的统计。

下面是收集到的任务信息的统计：