当前位置: 首页 > article >正文

从零开始训练小型语言模型之minimind

文章目录

  • 从零开始训练小型语言模型之minimind
    • 什么是minimind
    • 从小模型开始

从零开始训练小型语言模型之minimind

什么是minimind

github: https://github.com/jingyaogong/minimind

目前市面上的大语言模型动辄上百亿参数,训练成本高昂。就算是自己想学习和研究,也会被巨大的硬件门槛挡在门外。而 MiniMind 通过精妙的设计,把模型参数压缩到了最小,让个人开发者也能亲手训练 AI 模型!

最小版本仅有 26M 大小(约为 GPT-3 的 1/7000),一张普通的游戏显卡就能运行。项目提供了完整的训练流程:

  • 基础语言能力训练(预训练)
  • 对话能力训练(指令微调)
  • 快速适应新任务(LoRA 微调)
  • 优化回答质量(DPO 偏好对齐)

本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。

从小模型开始

为什么建议大家从小模型开始,特别是一些开源小模型?

不说大模型数据训练和微调所需要的资金,算力等问题,就大模型训练所需要的训练和微调数据的收集,就已经是一个很大的工程量了。

之所以建议大家刚开始以小模型为主,原因就是因为从技术原理来说,大模型和小模型没有本质上的区别;只不过大模型和小模型由于量变导致的质变,大模型的复杂度与小模型不能同日而语。

而从学习和使用的角度来说,大模型和小模型最大的差距就是对算力的需求;虽然从效果上来说,小模型远不如大模型,但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。

最重要的是小模型有很强的实操性,因为其算力成本低,甚至可以在个人电脑上进行部署和运维,而且使用个人电脑也可以对它们进行训练和微调,这样就大大降低了我们的学习难度


http://www.kler.cn/a/577995.html

相关文章:

  • jQuery事件机制
  • 【橘子golang】从golang来谈闭包
  • Android WebSocket工具类:重连、心跳、消息队列一站式解决方案
  • 课题推荐——无人机在UWB环境下基于TOA/TDOA/AOA的室内定位与精度对比
  • ThinkPHP框架
  • 【够用就好008】开新坑自学esb32烧录进军物联网和嵌入式
  • PHP之常用函数
  • H5页面在移动端自动横屏
  • 开发环境搭建-03.后端环境搭建-使用Git进行版本控制
  • Leetcode 378-有序矩阵中第 K 小的元素
  • [从零开始学习JAVA ] 接口介绍
  • Unity UGUI下优化需要射线检测类的UI元素的一种方式
  • 【GPT入门】第9课 思维树概念与原理
  • 数据安全防线:备份文件的重要性与自动化实践
  • stm32——fft踩坑日记
  • ABB机器人Profinet或Ethernet/IP通讯的GSD/EDS文件获取方法
  • vue-cli3+vue2+elementUI+avue升级到vite+vue3+elementPlus+avue总结
  • Python MongoDB速成教程
  • 国产化板卡设计原理图:2330-基于FMC接口的JFM7K325T PCIeX4 3U PXIe接口卡
  • 加餐 —— Spring Boot 项目转 Solon 项目工具