当前位置: 首页 > article >正文

deepseek技术细节1

在这里插入图片描述
首先,需要理解token是什么,
大模型中的token是指什么?

在大模型(尤其是自然语言处理(NLP)领域中的大模型,如BERT、GPT等)的上下文中,"token"是一个关键概念,它指的是文本数据在被模型处理之前或过程中被分割成的最小单元。这些单元可以是单词、标点符号、子词(subword)等,具体取决于模型的词汇表(vocabulary)和分词策略(tokenization strategy)。
分词策略
    基于单词的分词:在这种策略下,文本被直接分割成单词。然而,这种方法在处理如英语这样的语言时可能会遇到一些问题,比如稀有词(rare words)和未登录词(out-of-vocabulary, OOV)的问题。
    基于子词的分词:为了处理上述问题,许多现代NLP模型采用了基于子词的分词方法,如Byte Pair Encoding(BPE)、SentencePiece或WordPiece。这些方法将单词分割成更小的单元(如字符、字符组合或词根),这些单元的组合能够表示词汇表中的单词,包括那些罕见的或未出现在训练数据中的单词。
Token的作用
    输入表示:在大模型中,token是模型输入的基本单位。每个token都会被转换成模型能够理解的数值形式(通常是向量),这些向量随后被用于模型内部的计算。
    词汇表:模型的词汇表定义了它可以处理的token集合。词汇表的大小是一个重要的超参数,因为它直接影响了模型的内存占用和计算复杂度。较大的词汇表能够表示更多的单词和组合,但也会增加模型的复杂性和训练时间。
    上下文表示:在大模型中,如BERT这样的Transformer模型,token不仅代表它们自身的信息,还通过自注意力机制(self-attention)捕获了与文本中其他token的上下文关系。这种能力使得模型能够理解和生成更加复杂和连贯的文本。
示例
假设我们有一个句子 "Hello, world!",在基于单词的分词策略下,它可能会被分割成两个token:"Hello,""world!"。然而,在基于子词的分词策略下,它可能会被分割成更小的单元,如 "Hello", ",", "world","!",或者更进一步地,如果使用了像BPE这样的方法,可能会分割成更细粒度的单元,如 "Hell", "o", ",", "wor", "ld","!"。这些token随后会被转换成数值向量,并作为模型的输入。
在讨论机器学习模型,尤其是深度学习和大型语言模型时,参数量的单位通常使用“百万”(million)或“十亿”(billion)来表示。这是因为现代大模型包含的参数数量极其庞大,使用这些较大的单位能够更加简洁地表达其规模。
- **百万(Million)**:用"M"表示,1 Million = 1,000,000(一百万)。例如,一个拥有300M参数的模型意味着它有3亿个参数。
- **十亿(Billion)**:用"B"表示,1 Billion = 1,000,000,000(十亿)。比如,7B代表的是70亿个参数。
除了这两个常用的单位外,有时也会根据具体的上下文看到其他表示方式:
- **千(Thousand)**:虽然不常见于描述非常大的模型,但小一些的模型可能会用"k"(kilo)表示,1k等于1,000- **兆(Trillion)**:对于特别巨大的模型,可能会使用"T"(trillion),不过目前大多数公开的大规模模型还未达到这个级别。1 Trillion = 1,000,000,000,000(一万亿)。
举例来说,如果某个模型的参数量为300M,即3亿;若为7B,则是70亿。这些单位帮助我们更直观地理解模型的大小及其复杂性,同时也反映了训练这样的模型所需要的计算资源规模。随着技术的发展,我们可以预见未来可能会出现参数量以兆计的模型。然而,当前最常见用于描述大型语言模型参数量的单位仍然是百万(M)和十亿(B)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/534619.html

相关文章:

  • 2025蓝桥杯JAVA编程题练习Day2
  • Gcc缺省使用的C/C++版本
  • 蓝桥杯思维训练营(三)
  • 算法随笔_39: 最多能完成排序的块_方法2
  • unordered_map/set的哈希封装
  • 深度学习 Pytorch 基础网络手动搭建与快速实现
  • 线程池如何知道一个线程的任务已经执行完成
  • 调用腾讯云批量文本翻译API翻译srt字幕
  • Text2Sql:开启自然语言与数据库交互新时代(3030)
  • postgresql-COALESCE函数、NULLIF函数、NVL函数使用
  • 腾讯云 TI 平台部署与调用DeepSeek-R1大模型的实战指南
  • docker常用基础
  • 【极简模式】deepseek文案+剪映图文成片
  • 使用媒体查询确保网页能够在手机、平板和电脑上正常浏览
  • AI回答 | spring,springboot,spring MVC,servlet, spring web之间的联系与支持
  • Java面试:a+=a-=aa原理解析
  • 国产编辑器EverEdit - 工具栏说明
  • SpringBoot 整合 Mybatis:注解版
  • 深度学习|表示学习|卷积神经网络|NIN 相比普通 CNN|17
  • mysql慢查询工具explain
  • MySQL 的 binlog 作用
  • 11.10 LangChain对话记忆管理实战:从入门到生产级ConversationBufferMemory应用指南
  • 查看设备uuid
  • 【EdgeAI实战】(2)STM32 AI 扩展包的安装与使用
  • 【技术追踪】DiffMIC:用于医学图像分类的双引导扩散网络(MICCAI-2024)
  • 了解linux-5.4.31/drivers/gpio/gpiolib-devres.c中的devm_gpiod_get_optional()函数