当前位置：首页 > article >正文

DeepSeek-VL2 模型的配置

article 2025/2/25 1:00:34

DeepSeek-VL2 模型的配置

flyfish

DeepSeek-VL2\deepseek_vl2\models\configuration_deepseek.py

from transformers.configuration_utils import PretrainedConfig
from transformers.utils import logging

logger = logging.get_logger(__name__)

DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
class DeepseekV2Config(PretrainedConfig):


    model_type = "deepseek_v2"
    keys_to_ignore_at_inference = ["past_key_values"]

    def __init__(
        self,
        vocab_size=102400,
        hidden_size=4096,
        intermediate_size=11008,
        moe_intermediate_size = 1407,
        num_hidden_layers=30,
        num_attention_heads=32,
        num_key_value_heads=32,
        n_shared_experts = None,
        n_routed_experts = None,
        ep_size = 1,
        routed_scaling_factor = 1.0,
        kv_lora_rank = 512,
        q_lora_rank = 1536,
        qk_rope_head_dim = 64,
        v_head_dim = 128,
        qk_nope_head_dim = 128,
        topk_method = 'gready',
        n_group = None,
        topk_group = None,
        num_experts_per_tok = None,
        moe_layer_freq = 1,
        first_k_dense_replace = 0,
        norm_topk_prob = False,
        scoring_func = 'softmax',
        aux_loss_alpha = 0.001,
        seq_aux = True,
        hidden_act="silu",
        max_position_embeddings=2048,
        initializer_range=0.02,
        rms_norm_eps=1e-6,
        use_cache=True,
        pad_token_id=None,
        bos_token_id=100000,
        eos_token_id=100001,
        pretraining_tp=1,
        tie_word_embeddings=False,
        rope_theta=10000.0,
        rope_scaling=None,
        attention_bias=False,
        attention_dropout=0.0,
        use_mla=True,
        **kwargs,
    ):
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.hidden_size = hidden_size
        self.intermediate_size = intermediate_size
        self.moe_intermediate_size = moe_intermediate_size
        self.num_hidden_layers = num_hidden_layers
        self.num_attention_heads = num_attention_heads
        self.n_shared_experts = n_shared_experts
        self.n_routed_experts = n_routed_experts
        self.ep_size = ep_size
        self.routed_scaling_factor = routed_scaling_factor
        self.kv_lora_rank = kv_lora_rank
        self.q_lora_rank = q_lora_rank
        self.qk_rope_head_dim = qk_rope_head_dim
        self.v_head_dim = v_head_dim
        self.qk_nope_head_dim = qk_nope_head_dim
        self.topk_method = topk_method
        self.n_group = n_group
        self.topk_group = topk_group
        self.num_experts_per_tok = num_experts_per_tok
        self.moe_layer_freq = moe_layer_freq
        self.first_k_dense_replace = first_k_dense_replace
        self.norm_topk_prob = norm_topk_prob
        self.scoring_func = scoring_func
        self.aux_loss_alpha = aux_loss_alpha
        self.seq_aux = seq_aux
        # for backward compatibility
        if num_key_value_heads is None:
            num_key_value_heads = num_attention_heads

        self.num_key_value_heads = num_key_value_heads
        self.hidden_act = hidden_act
        self.initializer_range = initializer_range
        self.rms_norm_eps = float(rms_norm_eps)
        self.pretraining_tp = pretraining_tp
        self.use_cache = use_cache
        self.rope_theta = rope_theta
        self.rope_scaling = rope_scaling
        self.attention_bias = attention_bias
        self.attention_dropout = attention_dropout
        self.use_mla = use_mla

        super().__init__(
            pad_token_id=pad_token_id,
            bos_token_id=bos_token_id,
            eos_token_id=eos_token_id,
            tie_word_embeddings=tie_word_embeddings,
            **kwargs,
        )

解释

配置一个名为DeepseekV2Model的深度学习模型。以下是各个参数的具体含义：

vocab_size：词汇表大小，决定了模型能够处理的最大单词数量。
hidden_size：隐藏层维度，影响模型内部表示的复杂度。
intermediate_size：中间层维度，通常是MLP层的维度。
moe_intermediate_size：专家混合（MoE）层的中间维度。
num_hidden_layers：Transformer解码器中的隐藏层数量。
num_attention_heads：每个注意力层中的注意力头数量。
n_shared_experts 和 n_routed_experts：分别指共享专家和路由专家的数量，这些参数用于实现专家混合（MoE）机制。
routed_scaling_factor：路由专家的比例因子。
topk_method：用于路由门的选择方法。
n_group 和 topk_group：路由专家的组数及每个token选择的组数。
num_experts_per_tok：每个token选择的专家数量。
moe_layer_freq：MoE层出现的频率。
first_k_dense_replace：浅层层中的密集层数量。
norm_topk_prob：是否对路由专家的权重进行归一化。
scoring_func：计算专家权重的方法。
aux_loss_alpha：辅助损失的权重系数。
seq_aux：是否为每个样本计算辅助损失。
num_key_value_heads：用于实现分组查询注意力的key_value头的数量。
hidden_act：解码器中的非线性激活函数。
max_position_embeddings：模型能处理的最大序列长度。
initializer_range：初始化权重矩阵的标准差。
rms_norm_eps：RMS标准化层中的epsilon值。
use_cache：是否返回最后的键/值注意力。
pad_token_id：填充token的ID。
bos_token_id 和 eos_token_id：流开始和结束的token ID。
pretraining_tp：预训练期间使用的张量并行度等级。
tie_word_embeddings：是否绑定词嵌入权重。
rope_theta：RoPE嵌入的基础周期。
rope_scaling：RoPE嵌入的缩放配置。
attention_bias：是否在自我注意力机制中使用偏置。
attention_dropout：注意力概率的dropout率。
use_mla：是否使用多潜在注意力。

存储[DeepseekV2Model]配置的类，它被用来根据特定参数实例化一个DeepSeek模型，并定义该模型的架构。使用默认值实例化配置将会产生与具有多潜在注意力的DeepSeek-V2相似的配置。

配置对象继承自[PretrainedConfig]，可用于控制模型输出。

参数：

vocab_size (int, 可选, 默认为102400)：词汇量大小，定义了可以通过传递给[DeepseekV2Model]的inputs_ids表示的不同token的数量。
hidden_size (int, 可选, 默认为4096)：隐藏层维度。
intermediate_size (int, 可选, 默认为11008)：MLP（多层感知器）维度。
moe_intermediate_size (int, 可选, 默认为1407)：Moe（专家混合）维度。
num_hidden_layers (int, 可选, 默认为32)：Transformer解码器中的隐藏层数量。
num_attention_heads (int, 可选, 默认为32)：Transformer解码器中每个注意力层的注意力头数量。
n_shared_experts (int, 可选, 默认为None)：共享专家的数量，None表示密集模型。
n_routed_experts (int, 可选, 默认为None)：路由专家的数量，None表示密集模型。
routed_scaling_factor (float, 可选, 默认为1.0)：路由专家的比例因子。
topk_method (str, 可选, 默认为gready)：在路由门中使用的Topk方法。
n_group (int, 可选, 默认为None)：路由专家的组数。
topk_group (int, 可选, 默认为None)：为每个token选择的组数（确保所选专家仅在topk_group组内）。
num_experts_per_tok (int, 可选, 默认为None)：选择的专家数量，None表示密集模型。
moe_layer_freq (int, 可选, 默认为1)：MoE层的频率：每moe_layer_freq - 1个密集层有一个专家层。
first_k_dense_replace (int, 可选, 默认为0)：浅层层（embed->dense->dense->…->dense->moe->moe…->lm_head）中的密集层数量。
norm_topk_prob (bool, 可选, 默认为False)：是否归一化路由专家的权重。
scoring_func (str, 可选, 默认为’softmax’)：计算专家权重的方法。
aux_loss_alpha (float, 可选, 默认为0.001)：辅助损失权重系数。
seq_aux (bool, 可选, 默认为True)：是否为每个单独样本计算辅助损失。
num_key_value_heads (int, 可选)：用于实现分组查询注意力的key_value头的数量。如果num_key_value_heads=num_attention_heads，则模型将使用多头注意力（MHA），如果num_key_value_heads=1，则模型将使用多查询注意力（MQA），否则使用GQA。转换多头检查点到GQA检查点时，每个组的关键值头应通过平均池化该组内的所有原始头来构建。更多详情请参阅这篇论文。如果没有指定，默认为num_attention_heads。
hidden_act (str 或 function, 可选, 默认为"silu")：解码器中的非线性激活函数（函数或字符串）。
max_position_embeddings (int, 可选, 默认为2048)：此模型可能使用的最大序列长度。
initializer_range (float, 可选, 默认为0.02)：初始化所有权重矩阵的截断正态分布的标准差。
rms_norm_eps (float, 可选, 默认为1e-06)：rms标准化层中使用的epsilon。
use_cache (bool, 可选, 默认为True)：模型是否返回最后的键/值注意力（并非所有模型都使用）。仅当config.is_decoder=True时相关。
pad_token_id (int, 可选)：填充token id。
bos_token_id (int, 可选, 默认为1)：流开始token id。
eos_token_id (int, 可选, 默认为2)：流结束token id。
pretraining_tp (int, 可选, 默认为1)：实验功能。预训练期间使用的张量并行度等级。有关详细信息，请参阅这个文档。为了确保预训练结果的精确再现，此值是必要的。请参阅这个问题。
tie_word_embeddings (bool, 可选, 默认为False)：是否绑定词嵌入权重。
rope_theta (float, 可选, 默认为10000.0)：RoPE嵌入的基础周期。
rope_scaling (Dict, 可选)：包含RoPE嵌入缩放配置的字典。目前支持两种缩放策略：线性和动态。它们的缩放因子必须是一个大于1的浮点数。期望格式为{"type": 策略名称, "factor": 缩放因子}。使用此标志时，不要更新max_position_embeddings以适应新的最大值。
attention_bias (bool, 默认为False, 可选, 默认为False)：在自我注意的查询、键、值和输出投影层中是否使用偏置。
attention_dropout (float, 可选, 默认为0.0)：注意力概率的dropout率。
use_mla (bool, 可选, 默认为True)：使用多潜在注意力或多头注意力。如果为True，则模型将使用多潜在注意力；否则，将使用多头注意力。

from transformers import DeepseekV2Model, DeepseekV2Config
# 初始化一个DeepSeek-V2风格的配置
configuration = DeepseekV2Config()

# 访问模型配置
configuration = model.config

这段代码定义了一个名为 DeepseekV2Config 的配置类，该类继承自 PretrainedConfig 类，并用于配置一个名为 DeepseekV2Model 的深度学习模型。

1. 导入模块

from transformers.configuration_utils import PretrainedConfig
from transformers.utils import logging

PretrainedConfig: 这是从 transformers 库中导入的一个基类，用于存储和管理预训练模型的配置信息。所有特定于模型的配置类（如 DeepseekV2Config）都继承自这个基类。
logging: 这是从 transformers 库中导入的工具，用于记录日志信息。日志记录对于调试和监控应用程序非常有用。

2. 设置日志记录器

logger = logging.get_logger(__name__)

logger: 创建一个日志记录器实例，用于记录与当前模块相关的日志信息。__name__ 是当前模块的名称，通常是一个字符串，例如 'transformers.models.deepseek.configuration_deepseek'。使用模块名作为日志记录器名称有助于组织和过滤日志输出。

3. 定义预训练配置映射

DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP = {}

DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP: 这是一个字典，用于存储预训练模型配置文件的URL或路径。键是模型名称或标识符，值是对应的配置文件路径或URL。在这个例子中，它被初始化为空字典 {}，意味着没有预先定义的预训练配置文件。

4. 定义 `DeepseekV2Config` 类

class DeepseekV2Config(PretrainedConfig):
    pass

DeepseekV2Config: 这是一个新的类，继承自 PretrainedConfig。这个类将包含所有特定于 DeepseekV2Model 的配置参数和方法。

解释

model_type: 指定了模型类型为 "deepseek-v2"，这是在 PretrainedConfig 中用来识别不同模型类型的字段。
__init__ 方法: 初始化函数，设置了所有配置参数的默认值。这些参数包括词汇表大小、隐藏层维度、注意力头数量等。每个参数都有一个默认值，用户可以根据需要进行调整。
super().__init__ 调用: 调用了父类 PretrainedConfig 的初始化方法，传递了必要的参数（如 pad_token_id, bos_token_id, eos_token_id 等）以及任何额外的关键字参数（**kwargs），以确保兼容性和扩展性。

使用示例

如何使用 DeepseekV2Config 类来创建和访问配置对象的示例：

from transformers import DeepseekV2Model, DeepseekV2Config

# 初始化一个DeepSeek-V2风格的配置
configuration = DeepseekV2Config()

# 访问模型配置
print(configuration.vocab_size)  # 输出: 102400
print(configuration.hidden_size)  # 输出: 4096

# 创建一个DeepSeek-V2模型实例
model = DeepseekV2Model(configuration)

# 访问模型配置
model_config = model.config
print(model_config.vocab_size)  # 输出: 102400