当前位置: 首页 > article >正文

DeepSeek R1学习

0.回顾:

https://blog.csdn.net/Together_CZ/article/details/144431432?ops_request_misc=%257B%2522request%255Fid%2522%253A%25226574a586f0850d0329fbb720e5b8d5a9%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=6574a586f0850d0329fbb720e5b8d5a9&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v1~rank_v31_ecpm-1-144431432-null-null.142v101control&utm_term=%E5%A6%82%E4%BD%95%E5%88%A9%E7%94%A8o1%E8%BF%9B%E8%A1%8C%E8%92%B8%E9%A6%8F&spm=1018.2226.3001.4187
https://blog.csdn.net/m0_56172605/article/details/144786447?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522bef2e5d19abe2bcdf2e986e45b1ef9b9%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=bef2e5d19abe2bcdf2e986e45b1ef9b9&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_ecpm_v1~rank_v31_ecpm-23-144786447-null-null.nonecase&utm_term=%E5%A6%82%E4%BD%95%E5%88%A9%E7%94%A8o1%E8%BF%9B%E8%A1%8C%E8%92%B8%E9%A6%8F&spm=1018.2226.3001.4450
https://blog.csdn.net/m0_59164304/article/details/144774756

1.使用 DeepSeek-R1 作为蒸馏模型:

调用费用大约为 o1 模型的 1/50。
百万Token输出耗费约16元。
蒸馏一轮:百元左右。
在这里插入图片描述

2. Pipeline:

在这里插入图片描述
比如目前的DeepSeek-R1:
在这里插入图片描述

3.结果:

在这里插入图片描述
3.比较厉害的模型架构:
在这里插入图片描述
Gemini 2.0-Flash-thinking:
在这里插入图片描述

4.回顾蒸馏

目的就是给Base模型进行后训练,从而产生高性能数据集模型的某些性能。
在这里插入图片描述

5.1.5B模型蒸馏

1.环境配置:
显存要求:80G
pytorch 2.5.1
cuda 12.4
python 3.11
在这里插入图片描述
安装 WandB
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2.下载qwen1.5B
在这里插入图片描述
3.下载llama-factory
在这里插入图片描述
4.主流的推理数据集:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5.标记:
在这里插入图片描述
6.数据清洗:
在这里插入图片描述
在这里插入图片描述

7.训练参数:
在这里插入图片描述
8.结果:
在MMLU涨点10~15.


http://www.kler.cn/a/523382.html

相关文章:

  • 升级到Mac15.1后pod install报错
  • Android车机DIY开发之学习篇(七)NDK交叉工具构建
  • Nginx前端后端共用一个域名如何配置
  • 多级缓存(亿级并发解决方案)
  • 准备知识——旋转机械的频率和振动基础
  • 设计模式面试题
  • 27.日常算法
  • 【Leetcode 热题 100】152. 乘积最大子数组
  • 2025春晚临时直播源接口
  • Jellyfin的快速全文搜索代理JellySearch
  • iperf 测 TCP 和 UDP 网络吞吐量
  • 2025年数学建模美赛 A题分析(2)楼梯使用频率数学模型
  • t113 procd-init文件系统增加自己的程序文件
  • 7-Zip Mark-of-the-Web绕过漏洞复现(CVE-2025-0411)
  • 前端——js高级25.1.27
  • 20250128 大语言模型(Large Language Model, LLM)已成为自然语言处理(NLP)领域的重要突破
  • 脚本/编译安装nginx1.11.10
  • ArcGIS10.2 许可License点击始终启动无响应的解决办法及正常启动的前提
  • 使用 PyTorch 实现线性回归:从零开始的完整指南
  • Ubuntu 18.04安装Emacs 26.2问题解决
  • 大一计算机的自学总结:位运算的应用及位图
  • 在做题中学习(82):最小覆盖子串
  • Vue 响应式渲染 - 待办事项简单实现
  • 案例研究丨浪潮云洲通过DataEase推进多维度数据可视化建设
  • 图神经网络驱动的节点分类:从理论到实践
  • 神经网络和深度学习