当前位置: 首页 > article >正文

【LLM】从零预训练一个tiny-llama

文章目录

  • 从零预训练一个tiny-llama
    • 1. 数据集
    • 2. 数据预处理
    • 3. 训练模型
    • 4. 项目结构介绍
    • 5. 运行项目示例
    • 学习总结

从零预训练一个tiny-llama

参考项目:https://github.com/KMnO4-zx/tiny-llm
数据集:https://www.modelscope.cn/datasets/AI-ModelScope/TinyStories

1. 数据集

2. 数据预处理

3. 训练模型

4. 项目结构介绍

5. 运行项目示例

学习总结

本次掌握了数据集的预处理,并对预处理后的数据进行训练。了解模型如何基于已有的上下文生成后续 token 的机制。


http://www.kler.cn/news/324322.html

相关文章:

  • python高级用法_装饰器
  • text2sql方法:NatSQL和DIN-SQL
  • 【Redis 源码】4adlist列表.md
  • 3. 轴指令(omron 机器自动化控制器)——>MC_MoveVelocity
  • 生物信息常用编辑器:轻量/强大/可定制/跨平台支持的编辑器之神 - vim
  • 前端开发设计模式——单例模式
  • golang 如何生成唯一的 UUID
  • jQuery——属性
  • Webpack教程-概述
  • CF补题第二天
  • 【C++篇】迈入新世界的大门——初识C++(上篇)
  • element下拉框联动 或 多选 回显数据后页面操作不生效问题解决
  • 汇编语言 访问CMOS RAM并打印时间(未完)
  • 6-演员和蓝图
  • 计算机毕业设计 基于Python的热门微博数据可视化分析系统的设计与实现 Python+Django+Vue 可视化大屏 附源码 讲解 文档
  • MySQL—触发器详解
  • vector的模拟实现以及oj题(2)
  • Linux —— Socket编程(二)
  • NetworkPolicy访问控制
  • Windows 开发工具使用技巧
  • PAT甲级1003Emergency
  • 【分布式微服务云原生】10分钟揭秘Dubbo负载均衡:如何让服务调用更智能?
  • 发明专利实用新型专利外观设计专利
  • List几种遍历方法速度
  • 【GUI设计】基于图像分割的GUI系统(3),matlab实现
  • leetcode91. 解码方法,动态规划
  • uniapp设置从右上角到左下角的三种渐变颜色
  • 滚雪球学MySQL[2.1讲]:基础SQL操作
  • 如何使用 Go 获取你的 IP 地址
  • MMD模型及动作一键完美导入UE5-IVP5U插件方案(二)