当前位置: 首页 > article >正文

【LLM】从零预训练一个tiny-llama

文章目录

  • 从零预训练一个tiny-llama
    • 1. 数据集
    • 2. 数据预处理
    • 3. 训练模型
    • 4. 项目结构介绍
    • 5. 运行项目示例
    • 学习总结

从零预训练一个tiny-llama

参考项目:https://github.com/KMnO4-zx/tiny-llm
数据集:https://www.modelscope.cn/datasets/AI-ModelScope/TinyStories

1. 数据集

2. 数据预处理

3. 训练模型

4. 项目结构介绍

5. 运行项目示例

学习总结

本次掌握了数据集的预处理,并对预处理后的数据进行训练。了解模型如何基于已有的上下文生成后续 token 的机制。


http://www.kler.cn/a/324322.html

相关文章:

  • Android Mobile Network Settings | APN 菜单加载异常
  • EWM 打印
  • 力扣刷题日记之150.逆波兰表达式求值
  • 8.C++面向对象5(实现一个较为完善的日期类)
  • dpdk tm eth event驱动协同完成收发包流程
  • CSS Modules中的 :global
  • python高级用法_装饰器
  • text2sql方法:NatSQL和DIN-SQL
  • 【Redis 源码】4adlist列表.md
  • 3. 轴指令(omron 机器自动化控制器)——>MC_MoveVelocity
  • 生物信息常用编辑器:轻量/强大/可定制/跨平台支持的编辑器之神 - vim
  • 前端开发设计模式——单例模式
  • golang 如何生成唯一的 UUID
  • jQuery——属性
  • Webpack教程-概述
  • CF补题第二天
  • 【C++篇】迈入新世界的大门——初识C++(上篇)
  • element下拉框联动 或 多选 回显数据后页面操作不生效问题解决
  • 汇编语言 访问CMOS RAM并打印时间(未完)
  • 6-演员和蓝图
  • 计算机毕业设计 基于Python的热门微博数据可视化分析系统的设计与实现 Python+Django+Vue 可视化大屏 附源码 讲解 文档
  • MySQL—触发器详解
  • vector的模拟实现以及oj题(2)
  • Linux —— Socket编程(二)
  • NetworkPolicy访问控制
  • Windows 开发工具使用技巧