当前位置: 首页 > article >正文

AIGC学习笔记—minimind详解+训练+推理

前言

这个开源项目是带我的一个导师,推荐我看的,记录一下整个过程,总结一下收获。这个项目的slogan是“大道至简”,确实很简。作者说是这个项目为了帮助初学者快速入门大语言模型(LLM),通过从零开始训练一个仅26MB的微型语言模型MiniMind,最快可在3小时内完成。降低学习LLM的门槛,让更多人能够轻松上手。

MiniMind极其轻量,约为GPT-3的1/7000,适合普通个人GPU进行快速推理和训练。项目基于DeepSeek-V2和Llama3结构,涵盖数据处理、预训练、指令微调(SFT)、偏好优化(DPO)等全部阶段,支持混合专家(MoE)模型。所有代码、数据集及其来源均公开,兼容主流框架,如transformers和DeepSpeed,支持单机单卡及多卡训练,并提供模型测试及OpenAI API接口。

下面放一个官方给的结果

一、使用conda搭建环境

这里不做过多赘述了,创建一个这个项目的独立虚拟环境,在这个环境下装所需的库,如下是我的软硬件环境配置(根据自己情况酌情变动):

  • Windows11
  • Python == 3.9
  • Pytorch == 2.1.2
  • CUDA == 11.8
  • requirements.txt

二、准备数据集 

下载到./dataset/目录下

MiniMind训练数据集下载地址
tokenizer训练集HuggingFace / 百度网盘
Pretrain数据Seq-Monkey官方 / 百度网盘 / HuggingFace
SFT数据匠数大模型SFT数据集
DPO数据Huggingface

这里我就是用官方的了,后续我会打包整体的上传上去,免费下载,要不**某网盘还得冲svip,为了这个会员我差点叫了一声爸爸.....但是这里我想解释一下这个数据集,因为一开始我确实不了解,记录下来

  • Tokenizer训练集:这个数据集用于训练分词器(tokenizer),其任务是将文本数据转化为模型可以处理的词汇单元。

  • Pretrain数据:用于模型的预训练确保模型能够学习通用的语言模式。

  • SFT数据:该数据集专门用于指令微调(SFT),使模型能够更好地理解和执行用户的具体指令。SFT是提高模型实际应用能力的重要步骤。

  • DPO数据:这个数据集主要用于偏好优化(DPO),旨在帮助模型通过用户反馈来改进模型输出的质量和相关性,从而更好地满足用户需求。

三、训练tokenizer

话不多说先上代码,在记录一下我在看这个代码中了解的知识以及总结。

def train_tokenizer():
    # 读取JSONL文件并提取文本数据
    def read_texts_from_jsonl(file_path):
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                data = json.loads(line)
                yield data['text']

    # 数据集路径
    data_path = './dataset/tokenizer/tokenizer_train.jsonl'

    # 初始化分词器(tokenizer),使用BPE模型
    tokenizer = Tokenizer(models.BPE())
    # 预处理为字节级别
    tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)

    # 定义特殊token
    special_tokens = ["<unk>", "<s>", "</s>"] # 未知token、开始token、结束token

    # 设置训练器并添加特殊token
    trainer = trainers.BpeTrainer(
        vocab_size=6400, # 词汇表大小
        special_tokens=special_tokens,  # 确保这三个token被包含
        show_progress=True,
        # 初始化字母表
        initial_alphabet=pre_tokenizers.ByteLevel.alphabet()
    )

    # 读取文本数据
    texts = read_texts_from_jsonl(data_path)
    print(texts)
    exit()
    # 训练tokenizer
    tokenizer.train_from_iterator(texts, trainer=trainer)

    # 设置解码器
    tokenizer.decoder = decoders.ByteLevel()

    # 检查特殊token的索引
    assert tokenizer.token_to_id("<unk>") == 0
    assert tokenizer.token_to_id("<s>") == 1
    assert tokenizer.token_to_id("</s>") == 2

    # 保存tokenizer
    tokenizer_dir = "./model/yzh_minimind_tokenizer"
    os.makedirs(tokenizer_dir, exist_ok=True)
    tokenizer.save(os.path.join(tokenizer_dir, "tokenizer.json")) # 保存tokenizer模型
    # 保存BPE模型
    tokenizer.model.save("./model/yzh_minimind_tokenizer")

    # 手动创建配置文件
    config = {
        "add_bos_token": False,
        "add_eos_token": False,
        "add_prefix_space": True,
        "added_tokens_decoder": {
            "0": {
                "content": "<unk>",
                "lstrip": False,
                "normalized": False,
                "rstrip": False,
                "single_word": False,
                "special": True
            },
            "1": {
                "content": "<s>",
                "lstrip": False,
                "normalized": False,
                "rstrip": False,
                "single_word": False,
                "special": True
            },
            "2": {
                "content": "</s>",
                "lstrip": False,
                "normalized": False,
                "rstrip": False,
                "single_word": False,
                "special": True
            }
        },
        "additional_special_tokens": [],
        "bos_token": "<s>",
        "clean_up_tokenization_spaces": False,
        "eos_token": "</s>",
        "legacy": True,
        "model_max_length": 1000000000000000019884624838656,
        "pad_token": None,
        "sp_model_kwargs": {},
        "spaces_between_special_tokens": False,
        "tokenizer_class": "PreTrainedTokenizerFast",
        "unk_token": "<unk>",
        "use_default_system_prompt": False,
        "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<s>user\\n' + content + '</s>\\n<s>assistant\\n' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' + '\\n' }}{% endif %}{% endfor %}"
    }

    # 保存配置文件
    with open(os.path.join(tokenizer_dir, "tokenizer_config.json"), "w", encoding="utf-8") as config_file:
        json.dump(config, config_file, ensure_ascii=False, indent=4)

    print("Tokenizer training completed and saved.")

从代码上来看,分词器使用的是BPE模型Tokenizer(models.BPE()),这条代码就是初始化一个字节对编码(Byte Pair Encoding,BPE)分词器,直接使用库就可以,但是这里我建议同学们去了解一下BPE,这里我推荐一篇博客,供大家学习。BPE 算法原理及使用指南【深入浅出】-CSDN博客

小辉问:这里面有几个库的函数解释一下

gpt答:

tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)

  • 功能:设置分词器的预处理器为 ByteLevel
  • ByteLevel:这一预处理器会将输入文本处理为字节级别的tokens,保留每个字节的原始表示,适用于处理各种字符(如中文、特殊符号等)。add_prefix_space=False 表示在每个词的前面不添加空格,适合某些特定的模型需求。

trainer = trainers.BpeTrainer( vocab_size=6400,

                special_tokens=special_tokens,

                show_progress=True,         initial_alphabet=pre_tokenizers.ByteLevel.alphabet() )

  • 功能:创建一个 BpeTrainer 实例,用于训练基于字节对编码(BPE)的分词器。
  • vocab_size=6400:指定词汇表的大小为6400,这意味着训练后分词器将保留6400个最常用的tokens。
  • special_tokens=special_tokens:将预定义的特殊tokens(如 <unk><s></s>)传递给训练器,确保这些tokens在训练过程中被考虑。
  • show_progress=True:在训练过程中显示进度条,方便监控训练进展。
  • initial_alphabet=pre_tokenizers.ByteLevel.alphabet():使用字节级预处理器的字母表作为训练的初始字母表,确保所有可能的字节都被考虑。

tokenizer.train_from_iterator(texts, trainer=trainer)

  • 功能:开始训练分词器。
  • train_from_iterator(texts, trainer=trainer):使用提供的文本迭代器和训练器来训练分词器。分词器会根据传入的文本数据学习如何将文本划分为tokens。

tokenizer.decoder = decoders.ByteLevel()

  • 功能:设置分词器的解码器为 ByteLevel
  • ByteLevel():该解码器用于将token IDs转换回原始文本,能够正确处理字节级表示,确保解码时还原出与输入文本一致的内容。这一过程是确保模型输出可读性的重要环节。

小辉问:为什么要手动定义config?

gpt答:因为配置文件的结构与 Tokenizer(models.BPE()) 推理的过程是密切相关的,配置文件的结构和内容直接影响 Tokenizer(models.BPE()) 在推理时的性能和效果。一个合理的配置文件可以确保分词器在处理输入文本时的一致性和有效性,从而提高模型的整体表现。

如下两图则表明训练完成,这个过程挺吃内存的,我的电脑是16GB,如果说内存复制失败,重启,再跑一下试试,我看起来16G刚刚够用.....

四、数据预处理

数据集31个G   还在下载,但是有处理好的,就是bin文件,但是我想自己跑一下试试,看一下代码,待续.....


http://www.kler.cn/news/327168.html

相关文章:

  • elasticsearch单个node节点写入数据
  • 中间层架构设计:构建稳健的企业级服务
  • [Day 81] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
  • 表现层架构设计:打造高效、可维护的前端系统
  • JavaScript网页设计案例深度解析:从理论到实践
  • frps+nginx实现访问ip的记录
  • 测试用例_边界值介绍(需求自动化生成用例方法论)
  • 预训练技巧:在训练末尾对领域数据上采样
  • Linux shell脚本set -e的作用详解
  • Linux 性能优化之CPU 多级缓存
  • ip的生命周期是多久
  • el-table添加fixed后错位问题
  • vscode【实用插件】Project Manager 项目管理
  • fastAPI教程:jinja2模板
  • 代码随想录:孤岛类问题
  • python UNIT 3 选择与循环(2)
  • 笔记本电脑如何改ip地址:操作指南与注意事项
  • Avalonia 项目结构说明
  • Elasticsearch 开放推理 API 增加了对 Google AI Studio 的支持
  • 【python进阶攻略12】C扩展
  • 破局汽车智能化浪潮:Tire 1供应商的网络优化与升级策略
  • leetcode|刷算法 线段树原理以及模板
  • 用OpenSSL搭建PKI证书体系
  • react 前端框架中的 三层(service,model,index)具体操作
  • CSS 参考手册
  • 某星球预约抢票脚本
  • 25中国烟草校园招聘面试问题总结 烟草面试全流程及面试攻略
  • 人工智能辅助的神经康复
  • Thinkphp/Laravel旅游景区预约系统的设计与实现
  • open-resty 服务安装jwt插件