玩转大语言模型——使用Kiln AI可视化环境进行大语言模型微调数据合成
系列文章目录
玩转大语言模型——使用langchain和Ollama本地部署大语言模型
玩转大语言模型——三分钟教你用langchain+提示词工程获得猫娘女友
玩转大语言模型——ollama导入huggingface下载的模型
玩转大语言模型——langchain调用ollama视觉多模态语言模型
玩转大语言模型——使用GraphRAG+Ollama构建知识图谱
玩转大语言模型——完美解决GraphRAG构建的知识图谱全为英文的问题
玩转大语言模型——配置图数据库Neo4j(含apoc插件)并导入GraphRAG生成的知识图谱
玩转大语言模型——本地部署带聊天界面deepseek R1的小白教程
玩转大语言模型——本地部署deepseek R1和本地数据库的小白教程(Ollama+AnythingLLM)
文章目录
- 系列文章目录
- 前言
- 下载安装
- 下载
- 安装
- 模型支持
- 初次使用
- 合成数据
- 生成单条数据
- 批量生成数据
- 导出数据/微调
前言
Kiln AI是一个强大的工具,主要用于微调大型语言模型(LLM)、生成合成数据以及协作数据集。Kiln AI提供了一整套无需编程、可视化操作的解决方案,帮助用户从零开始构建微调后的模型。用户可以通过Kiln UI创建任务,明确需求、初始提示和输入输出结构,然后选择合适的模型并配置参数,即可发起微调任务。Kiln支持多种主流模型,如OpenAI的GPT-4o系列、Meta的Llama 3.1与Llama 3.2以及Mistral的Mixtral等。众所周知人为去制作标签代价很大,对于学习微调或者仅作微调测试,Kiln是一个非常合适的应用,可以帮助我们通过大语言模型合成微调数据,辅助我们对模型进行微调,还可以导出生成的数据,以供其他训练和微调方式使用。
下载安装
下载
前往官网下载kiln
地址:https://docs.getkiln.ai/docs/quickstart
点击下载后会自动跳转到GitHub地址,选择适合自己系统的版本即可。
安装
下载后,安装应用程序:
- macOS:打开 .dmg 文件,然后将应用程序拖到 Applications 目录。
- Windows:双击安装程序,然后按照指南进行安装。
- Linux:保存应用程序并从终端启动它。
模型支持
Kiln 基本上可以使用来自许多提供商的任何 LLM 模型:
- 使用 Ollama 在本地运行。
- 连接 OpenAI、Groq、OpenRouter、AWS、Fireworks 等云提供商。您提供自己的 API 密钥,我们永远无法访问您的数据集。
- 连接到任何 OpenAI 兼容服务器,例如用于 vLLM 的 LiteLLM。
初次使用
首次使用需要进行一些设置,到以下设置界面点Skip
。
到这一界面后不需要提交邮箱,直接Continue
。
然后我们选择Ollama,Ollama的使用我们已经在前面的文章中配置过很多次了,不再赘述,可以翻翻前面的文章。选好后拉到下面点continue
。
首次进入时需要新建一个项目,我这里就随便输了。
为了更方便的演示,创建的任务我是直接用他生成的例子(点右上角的Try an example
)。
读者可以通过给出的提示参考改成自己需要的数据类型,然后点Create Task
创建任务。
随后进入以下界面。
合成数据
生成单条数据
在当前界面,选择模型后输入相关信息后执行。
运行结果如下:
右侧可以为生成的数据评分,并且可以直接判断他是否通过。
如果评分低还可以对模型的输出设定要求。
当输出达到满意的时候,保存退出后,点Dataset
可以看到刚才生成的数据。
批量生成数据
点击左侧Synthetic Data
然后点击Add Top Level Topics
。
点击之后选择合适的模型直接点generate即可,这里推荐的是deepseek
蒸馏的qwen14b
。
稍等一会就会生成若干topics
,也可以点击Add subtopics
新建子主题,在生成子主题时也要选用好一点的模型,经过笔者测试使用qwen2.5:14b可以保证正常生成。
点击Add data
,可以直接生成合成数据,亲测使用deepseek R1:14b
即可。
生成后的结果如下:
全部生成后点击Save All
保存数据。
这一过程也需要使用模型生成,笔者还是选用的deepseek R1:14b
。
出现进度条是正常的,不用管他,等一会就好了。
随后我们返回Dataset
可以看到生成的数据全都添加上了。
导出数据/微调
点击左侧Fine Tune
,然后点击Create Fine-Tune
由于我没有使用API Key
,所以我这里并不能直接微调,所以在此笔者选的是下面的Download
版本,读者可以根据下面的提示选择合适的数据格式。
然后选择New Dataset
然后选择过滤方式,可以通过此设置过滤掉低质量的数据,但为了节约时间,笔者用到的是不进行过滤。
然后选择数据划分,同样的也需要读者根据自己需求选择数据划分。
随后下载创建好的数据集
下载后可以使用Axolotl或Unsloth进行微调