当前位置：首页 > article >正文

deepseek技术细节1

article 2025/2/7 5:26:23

在这里插入图片描述
首先，需要理解token是什么，
大模型中的token是指什么？

在大模型（尤其是自然语言处理（NLP）领域中的大模型，如BERT、GPT等）的上下文中，"token"是一个关键概念，它指的是文本数据在被模型处理之前或过程中被分割成的最小单元。这些单元可以是单词、标点符号、子词（subword）等，具体取决于模型的词汇表（vocabulary）和分词策略（tokenization strategy）。
分词策略
    基于单词的分词：在这种策略下，文本被直接分割成单词。然而，这种方法在处理如英语这样的语言时可能会遇到一些问题，比如稀有词（rare words）和未登录词（out-of-vocabulary, OOV）的问题。
    基于子词的分词：为了处理上述问题，许多现代NLP模型采用了基于子词的分词方法，如Byte Pair Encoding（BPE）、SentencePiece或WordPiece。这些方法将单词分割成更小的单元（如字符、字符组合或词根），这些单元的组合能够表示词汇表中的单词，包括那些罕见的或未出现在训练数据中的单词。
Token的作用
    输入表示：在大模型中，token是模型输入的基本单位。每个token都会被转换成模型能够理解的数值形式（通常是向量），这些向量随后被用于模型内部的计算。
    词汇表：模型的词汇表定义了它可以处理的token集合。词汇表的大小是一个重要的超参数，因为它直接影响了模型的内存占用和计算复杂度。较大的词汇表能够表示更多的单词和组合，但也会增加模型的复杂性和训练时间。
    上下文表示：在大模型中，如BERT这样的Transformer模型，token不仅代表它们自身的信息，还通过自注意力机制（self-attention）捕获了与文本中其他token的上下文关系。这种能力使得模型能够理解和生成更加复杂和连贯的文本。
示例
假设我们有一个句子 "Hello, world!"，在基于单词的分词策略下，它可能会被分割成两个token："Hello," 和 "world!"。然而，在基于子词的分词策略下，它可能会被分割成更小的单元，如 "Hello", ",", "world", 和 "!"，或者更进一步地，如果使用了像BPE这样的方法，可能会分割成更细粒度的单元，如 "Hell", "o", ",", "wor", "ld", 和 "!"。这些token随后会被转换成数值向量，并作为模型的输入。

在讨论机器学习模型，尤其是深度学习和大型语言模型时，参数量的单位通常使用“百万”（million）或“十亿”（billion）来表示。这是因为现代大模型包含的参数数量极其庞大，使用这些较大的单位能够更加简洁地表达其规模。
- **百万（Million）**：用"M"表示，1 Million = 1,000,000（一百万）。例如，一个拥有300M参数的模型意味着它有3亿个参数。
- **十亿（Billion）**：用"B"表示，1 Billion = 1,000,000,000（十亿）。比如，7B代表的是70亿个参数。
除了这两个常用的单位外，有时也会根据具体的上下文看到其他表示方式：
- **千（Thousand）**：虽然不常见于描述非常大的模型，但小一些的模型可能会用"k"（kilo）表示，1k等于1,000。
- **兆（Trillion）**：对于特别巨大的模型，可能会使用"T"（trillion），不过目前大多数公开的大规模模型还未达到这个级别。1 Trillion = 1,000,000,000,000（一万亿）。
举例来说，如果某个模型的参数量为300M，即3亿；若为7B，则是70亿。这些单位帮助我们更直观地理解模型的大小及其复杂性，同时也反映了训练这样的模型所需要的计算资源规模。随着技术的发展，我们可以预见未来可能会出现参数量以兆计的模型。然而，当前最常见用于描述大型语言模型参数量的单位仍然是百万（M）和十亿（B）。