当前位置: 首页 > article >正文

AI学习指南DeepSeek篇(6)-DeepSeek论文介绍

在这里插入图片描述

1. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

发布时间: 2024 年 1 月 5 日
主要内容:
基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
支持多步学习率调度器,提升训练效率。
在预训练和对齐(监督微调与 DPO)方面进行了创新。
论文地址: 已打包上传,地址见文末

2. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

发布时间:


http://www.kler.cn/a/555675.html

相关文章:

  • 第37章 合作之路与占坑成功
  • 源码方式安装llama.cpp及调试
  • 【爬虫基础】第一部分 网络通讯-Socket套接字 P2/3
  • 将 DeepSeek 接入 WPS 为办公提效 !
  • baby_web(WEB)
  • 算法模板(二分法开区间模板,二分法闭区间模板)
  • 京东cfe滑块 分析
  • 跟着柳叶刀数字健康,学习如何通过病理切片预测分子分类对预后的影响|项目复现
  • 【深度学习】矩阵的理解与应用
  • 网络通信 之综合布线(Integrated Cabling for Network Communication)
  • 栈和队列-前K个高频元素
  • Windows 图形显示驱动开发-上下文监视
  • Leetcode 76 Minimum Window Substring
  • 鸿蒙NEXT开发-应用数据持久化之关系型数据库
  • Microsoft 365 Copilot中使用人数最多的是哪些应用
  • MariaDB 历史版本下载地址 —— 筑梦之路
  • Java多线程深度解析
  • QT项目——天气预报
  • 南凌科技接入deepseek大模型,提升云网智安服务能力
  • CE RED 增加网络安全 添加新网络安全类型