当前位置：首页 > article >正文

玩转大语言模型——使用Kiln AI可视化环境进行大语言模型微调数据合成

article 2025/2/12 6:35:24

系列文章目录

玩转大语言模型——使用langchain和Ollama本地部署大语言模型
玩转大语言模型——三分钟教你用langchain+提示词工程获得猫娘女友
玩转大语言模型——ollama导入huggingface下载的模型
玩转大语言模型——langchain调用ollama视觉多模态语言模型
玩转大语言模型——使用GraphRAG+Ollama构建知识图谱
玩转大语言模型——完美解决GraphRAG构建的知识图谱全为英文的问题
玩转大语言模型——配置图数据库Neo4j（含apoc插件）并导入GraphRAG生成的知识图谱
玩转大语言模型——本地部署带聊天界面deepseek R1的小白教程
玩转大语言模型——本地部署deepseek R1和本地数据库的小白教程(Ollama+AnythingLLM)

文章目录

系列文章目录
前言
下载安装
- 下载
- 安装
模型支持
初次使用
合成数据
- 生成单条数据
- 批量生成数据
导出数据/微调

前言

Kiln AI是一个强大的工具，主要用于微调大型语言模型（LLM）、生成合成数据以及协作数据集。Kiln AI提供了一整套无需编程、可视化操作的解决方案，帮助用户从零开始构建微调后的模型。用户可以通过Kiln UI创建任务，明确需求、初始提示和输入输出结构，然后选择合适的模型并配置参数，即可发起微调任务。Kiln支持多种主流模型，如OpenAI的GPT-4o系列、Meta的Llama 3.1与Llama 3.2以及Mistral的Mixtral等。众所周知人为去制作标签代价很大，对于学习微调或者仅作微调测试，Kiln是一个非常合适的应用，可以帮助我们通过大语言模型合成微调数据，辅助我们对模型进行微调，还可以导出生成的数据，以供其他训练和微调方式使用。

下载安装

下载

前往官网下载kiln
地址：https://docs.getkiln.ai/docs/quickstart
在这里插入图片描述
点击下载后会自动跳转到GitHub地址，选择适合自己系统的版本即可。

安装

下载后，安装应用程序：

macOS：打开 .dmg 文件，然后将应用程序拖到 Applications 目录。
Windows：双击安装程序，然后按照指南进行安装。
Linux：保存应用程序并从终端启动它。

模型支持

Kiln 基本上可以使用来自许多提供商的任何 LLM 模型：

使用 Ollama 在本地运行。
连接 OpenAI、Groq、OpenRouter、AWS、Fireworks 等云提供商。您提供自己的 API 密钥，我们永远无法访问您的数据集。
连接到任何 OpenAI 兼容服务器，例如用于 vLLM 的 LiteLLM。

初次使用

首次使用需要进行一些设置，到以下设置界面点Skip。
在这里插入图片描述
到这一界面后不需要提交邮箱，直接Continue。

然后我们选择Ollama，Ollama的使用我们已经在前面的文章中配置过很多次了，不再赘述，可以翻翻前面的文章。选好后拉到下面点continue。

首次进入时需要新建一个项目，我这里就随便输了。
在这里插入图片描述
为了更方便的演示，创建的任务我是直接用他生成的例子（点右上角的Try an example）。

读者可以通过给出的提示参考改成自己需要的数据类型，然后点Create Task创建任务。

随后进入以下界面。

合成数据

生成单条数据

在当前界面，选择模型后输入相关信息后执行。
在这里插入图片描述
运行结果如下：

右侧可以为生成的数据评分，并且可以直接判断他是否通过。

如果评分低还可以对模型的输出设定要求。

当输出达到满意的时候，保存退出后，点Dataset可以看到刚才生成的数据。
在这里插入图片描述

批量生成数据

点击左侧Synthetic Data然后点击Add Top Level Topics。

在这里插入图片描述

点击之后选择合适的模型直接点generate即可，这里推荐的是deepseek蒸馏的qwen14b。
在这里插入图片描述
稍等一会就会生成若干topics，也可以点击Add subtopics新建子主题，在生成子主题时也要选用好一点的模型，经过笔者测试使用qwen2.5:14b可以保证正常生成。

点击Add data，可以直接生成合成数据，亲测使用deepseek R1:14b即可。
在这里插入图片描述
生成后的结果如下：

全部生成后点击Save All保存数据。

这一过程也需要使用模型生成，笔者还是选用的deepseek R1:14b。

出现进度条是正常的，不用管他，等一会就好了。

随后我们返回Dataset可以看到生成的数据全都添加上了。
在这里插入图片描述

导出数据/微调

点击左侧Fine Tune，然后点击Create Fine-Tune
在这里插入图片描述
由于我没有使用API Key，所以我这里并不能直接微调，所以在此笔者选的是下面的Download版本，读者可以根据下面的提示选择合适的数据格式。

然后选择New Dataset

然后选择过滤方式，可以通过此设置过滤掉低质量的数据，但为了节约时间，笔者用到的是不进行过滤。
在这里插入图片描述
然后选择数据划分，同样的也需要读者根据自己需求选择数据划分。

随后下载创建好的数据集

下载后可以使用Axolotl或Unsloth进行微调