Datawhale AI 冬令营 模型微调
速通教程
动手学定制你的专属大模型-课程详情 | Datawhale
非常的丝滑,只需要下载数据集,上传数据集,选择好数据参数进行微调,等待几十分钟微调完成,创建应用,选择模型发布应用,等待发布完成就可以体验啦~~
所以所以,重要的是什么?重要的是数据,高质量的数据集是最重要的,训练过程中的一些超参数影响不是特别大。超参数正常设置就好。
当然注意到这里有全量微调和lora微调两种方式。那么全量微调的是小模型,7b以下的。据说20b以上的模型才具有涌现能力,所以全量微调的模型在数据集领域是很好的拟合的,效果嘛就看数据集的质量了。lora微调的模型保留了基座模型的能力,有一定的灵活性啦,但是注意不要超参数设置的过大导致过拟合或者数据丢失了。
数据集构建
注意到文本对话模型有alpaca和sharegpt两种微调数据格式。其中sharegpt格式要求比较严格,需要特别注意,但是也更强大。大模型微调平台数据集格式说明 | 讯飞开放平台文档中心
手上有pdf还有word等乱七八糟的非结构化数据,怎么办呐。首先需要把数据处理成pdf,markdown,html等半结构化格式,之后使用数据集构建工具自动化构建数据集,再进行数据清洗和数据去噪等步骤(不做也行)得到高质量干净的数据集。
数据集构建需要一定的编程知识,不过很容易上手啦,问一问星火大模型就好了。
这里给出一些构建数据集的例子:
如何从任何文档生成用于 LLM 微调的指令数据集(含代码) - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI
利用大模型构造数据集,并微调大模型一、前言 目前大模型的微调方法有很多,而且大多可以在消费级显卡上进行,每个人都可以在自 - 掘金大语言模型训练数据(简单介绍了数据是什么,数据有哪些)
构建好的数据集去哪里找?
1. huggingface,modelscope,opendatalab,openxlab,魔乐等MAAS平台
2. github等公共代码托管仓库
3. 各大maas平台的体验项目,一般都附有数据集的下载链接
4. 数据集搜索 --- Dataset Search
5. 一些垂直社区的论坛,csdn,知乎等公共平台
发布模型的api调用
-
https://blog.csdn.net/weixin_42914989/article/details/144339263