当前位置: 首页 > article >正文

DeepSeek-VL2 模型的配置

DeepSeek-VL2 模型的配置

flyfish

DeepSeek-VL2\deepseek_vl2\models\configuration_deepseek.py
from transformers.configuration_utils import PretrainedConfig
from transformers.utils import logging

logger = logging.get_logger(__name__)

DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
class DeepseekV2Config(PretrainedConfig):


    model_type = "deepseek_v2"
    keys_to_ignore_at_inference = ["past_key_values"]

    def __init__(
        self,
        vocab_size=102400,
        hidden_size=4096,
        intermediate_size=11008,
        moe_intermediate_size = 1407,
        num_hidden_layers=30,
        num_attention_heads=32,
        num_key_value_heads=32,
        n_shared_experts = None,
        n_routed_experts = None,
        ep_size = 1,
        routed_scaling_factor = 1.0,
        kv_lora_rank = 512,
        q_lora_rank = 1536,
        qk_rope_head_dim = 64,
        v_head_dim = 128,
        qk_nope_head_dim = 128,
        topk_method = 'gready',
        n_group = None,
        topk_group = None,
        num_experts_per_tok = None,
        moe_layer_freq = 1,
        first_k_dense_replace = 0,
        norm_topk_prob = False,
        scoring_func = 'softmax',
        aux_loss_alpha = 0.001,
        seq_aux = True,
        hidden_act="silu",
        max_position_embeddings=2048,
        initializer_range=0.02,
        rms_norm_eps=1e-6,
        use_cache=True,
        pad_token_id=None,
        bos_token_id=100000,
        eos_token_id=100001,
        pretraining_tp=1,
        tie_word_embeddings=False,
        rope_theta=10000.0,
        rope_scaling=None,
        attention_bias=False,
        attention_dropout=0.0,
        use_mla=True,
        **kwargs,
    ):
        self.vocab_size = vocab_size
        self.max_position_embeddings = max_position_embeddings
        self.hidden_size = hidden_size
        self.intermediate_size = intermediate_size
        self.moe_intermediate_size = moe_intermediate_size
        self.num_hidden_layers = num_hidden_layers
        self.num_attention_heads = num_attention_heads
        self.n_shared_experts = n_shared_experts
        self.n_routed_experts = n_routed_experts
        self.ep_size = ep_size
        self.routed_scaling_factor = routed_scaling_factor
        self.kv_lora_rank = kv_lora_rank
        self.q_lora_rank = q_lora_rank
        self.qk_rope_head_dim = qk_rope_head_dim
        self.v_head_dim = v_head_dim
        self.qk_nope_head_dim = qk_nope_head_dim
        self.topk_method = topk_method
        self.n_group = n_group
        self.topk_group = topk_group
        self.num_experts_per_tok = num_experts_per_tok
        self.moe_layer_freq = moe_layer_freq
        self.first_k_dense_replace = first_k_dense_replace
        self.norm_topk_prob = norm_topk_prob
        self.scoring_func = scoring_func
        self.aux_loss_alpha = aux_loss_alpha
        self.seq_aux = seq_aux
        # for backward compatibility
        if num_key_value_heads is None:
            num_key_value_heads = num_attention_heads

        self.num_key_value_heads = num_key_value_heads
        self.hidden_act = hidden_act
        self.initializer_range = initializer_range
        self.rms_norm_eps = float(rms_norm_eps)
        self.pretraining_tp = pretraining_tp
        self.use_cache = use_cache
        self.rope_theta = rope_theta
        self.rope_scaling = rope_scaling
        self.attention_bias = attention_bias
        self.attention_dropout = attention_dropout
        self.use_mla = use_mla

        super().__init__(
            pad_token_id=pad_token_id,
            bos_token_id=bos_token_id,
            eos_token_id=eos_token_id,
            tie_word_embeddings=tie_word_embeddings,
            **kwargs,
        )

解释

配置一个名为DeepseekV2Model的深度学习模型。以下是各个参数的具体含义:

  • vocab_size:词汇表大小,决定了模型能够处理的最大单词数量。
  • hidden_size:隐藏层维度,影响模型内部表示的复杂度。
  • intermediate_size:中间层维度,通常是MLP层的维度。
  • moe_intermediate_size:专家混合(MoE)层的中间维度。
  • num_hidden_layers:Transformer解码器中的隐藏层数量。
  • num_attention_heads:每个注意力层中的注意力头数量。
  • n_shared_expertsn_routed_experts:分别指共享专家和路由专家的数量,这些参数用于实现专家混合(MoE)机制。
  • routed_scaling_factor:路由专家的比例因子。
  • topk_method:用于路由门的选择方法。
  • n_grouptopk_group:路由专家的组数及每个token选择的组数。
  • num_experts_per_tok:每个token选择的专家数量。
  • moe_layer_freq:MoE层出现的频率。
  • first_k_dense_replace:浅层层中的密集层数量。
  • norm_topk_prob:是否对路由专家的权重进行归一化。
  • scoring_func:计算专家权重的方法。
  • aux_loss_alpha:辅助损失的权重系数。
  • seq_aux:是否为每个样本计算辅助损失。
  • num_key_value_heads:用于实现分组查询注意力的key_value头的数量。
  • hidden_act:解码器中的非线性激活函数。
  • max_position_embeddings:模型能处理的最大序列长度。
  • initializer_range:初始化权重矩阵的标准差。
  • rms_norm_eps:RMS标准化层中的epsilon值。
  • use_cache:是否返回最后的键/值注意力。
  • pad_token_id:填充token的ID。
  • bos_token_ideos_token_id:流开始和结束的token ID。
  • pretraining_tp:预训练期间使用的张量并行度等级。
  • tie_word_embeddings:是否绑定词嵌入权重。
  • rope_theta:RoPE嵌入的基础周期。
  • rope_scaling:RoPE嵌入的缩放配置。
  • attention_bias:是否在自我注意力机制中使用偏置。
  • attention_dropout:注意力概率的dropout率。
  • use_mla:是否使用多潜在注意力。

存储[DeepseekV2Model]配置的类,它被用来根据特定参数实例化一个DeepSeek模型,并定义该模型的架构。使用默认值实例化配置将会产生与具有多潜在注意力的DeepSeek-V2相似的配置。

配置对象继承自[PretrainedConfig],可用于控制模型输出。

参数:

  • vocab_size (int, 可选, 默认为102400):词汇量大小,定义了可以通过传递给[DeepseekV2Model]的inputs_ids表示的不同token的数量。
  • hidden_size (int, 可选, 默认为4096):隐藏层维度。
  • intermediate_size (int, 可选, 默认为11008):MLP(多层感知器)维度。
  • moe_intermediate_size (int, 可选, 默认为1407):Moe(专家混合)维度。
  • num_hidden_layers (int, 可选, 默认为32):Transformer解码器中的隐藏层数量。
  • num_attention_heads (int, 可选, 默认为32):Transformer解码器中每个注意力层的注意力头数量。
  • n_shared_experts (int, 可选, 默认为None):共享专家的数量,None表示密集模型。
  • n_routed_experts (int, 可选, 默认为None):路由专家的数量,None表示密集模型。
  • routed_scaling_factor (float, 可选, 默认为1.0):路由专家的比例因子。
  • topk_method (str, 可选, 默认为gready):在路由门中使用的Topk方法。
  • n_group (int, 可选, 默认为None):路由专家的组数。
  • topk_group (int, 可选, 默认为None):为每个token选择的组数(确保所选专家仅在topk_group组内)。
  • num_experts_per_tok (int, 可选, 默认为None):选择的专家数量,None表示密集模型。
  • moe_layer_freq (int, 可选, 默认为1):MoE层的频率:每moe_layer_freq - 1个密集层有一个专家层。
  • first_k_dense_replace (int, 可选, 默认为0):浅层层(embed->dense->dense->…->dense->moe->moe…->lm_head)中的密集层数量。
  • norm_topk_prob (bool, 可选, 默认为False):是否归一化路由专家的权重。
  • scoring_func (str, 可选, 默认为’softmax’):计算专家权重的方法。
  • aux_loss_alpha (float, 可选, 默认为0.001):辅助损失权重系数。
  • seq_aux (bool, 可选, 默认为True):是否为每个单独样本计算辅助损失。
  • num_key_value_heads (int, 可选):用于实现分组查询注意力的key_value头的数量。如果num_key_value_heads=num_attention_heads,则模型将使用多头注意力(MHA),如果num_key_value_heads=1,则模型将使用多查询注意力(MQA),否则使用GQA。转换多头检查点到GQA检查点时,每个组的关键值头应通过平均池化该组内的所有原始头来构建。更多详情请参阅这篇论文。如果没有指定,默认为num_attention_heads
  • hidden_act (strfunction, 可选, 默认为"silu"):解码器中的非线性激活函数(函数或字符串)。
  • max_position_embeddings (int, 可选, 默认为2048):此模型可能使用的最大序列长度。
  • initializer_range (float, 可选, 默认为0.02):初始化所有权重矩阵的截断正态分布的标准差。
  • rms_norm_eps (float, 可选, 默认为1e-06):rms标准化层中使用的epsilon。
  • use_cache (bool, 可选, 默认为True):模型是否返回最后的键/值注意力(并非所有模型都使用)。仅当config.is_decoder=True时相关。
  • pad_token_id (int, 可选):填充token id。
  • bos_token_id (int, 可选, 默认为1):流开始token id。
  • eos_token_id (int, 可选, 默认为2):流结束token id。
  • pretraining_tp (int, 可选, 默认为1):实验功能。预训练期间使用的张量并行度等级。有关详细信息,请参阅这个文档。为了确保预训练结果的精确再现,此值是必要的。请参阅这个问题。
  • tie_word_embeddings (bool, 可选, 默认为False):是否绑定词嵌入权重。
  • rope_theta (float, 可选, 默认为10000.0):RoPE嵌入的基础周期。
  • rope_scaling (Dict, 可选):包含RoPE嵌入缩放配置的字典。目前支持两种缩放策略:线性和动态。它们的缩放因子必须是一个大于1的浮点数。期望格式为{"type": 策略名称, "factor": 缩放因子}。使用此标志时,不要更新max_position_embeddings以适应新的最大值。
  • attention_bias (bool, 默认为False, 可选, 默认为False):在自我注意的查询、键、值和输出投影层中是否使用偏置。
  • attention_dropout (float, 可选, 默认为0.0):注意力概率的dropout率。
  • use_mla (bool, 可选, 默认为True):使用多潜在注意力或多头注意力。如果为True,则模型将使用多潜在注意力;否则,将使用多头注意力。
from transformers import DeepseekV2Model, DeepseekV2Config
# 初始化一个DeepSeek-V2风格的配置
configuration = DeepseekV2Config()

# 访问模型配置
configuration = model.config

这段代码定义了一个名为 DeepseekV2Config 的配置类,该类继承自 PretrainedConfig 类,并用于配置一个名为 DeepseekV2Model 的深度学习模型。

1. 导入模块

from transformers.configuration_utils import PretrainedConfig
from transformers.utils import logging
  • PretrainedConfig: 这是从 transformers 库中导入的一个基类,用于存储和管理预训练模型的配置信息。所有特定于模型的配置类(如 DeepseekV2Config)都继承自这个基类。

  • logging: 这是从 transformers 库中导入的工具,用于记录日志信息。日志记录对于调试和监控应用程序非常有用。

2. 设置日志记录器

logger = logging.get_logger(__name__)
  • logger: 创建一个日志记录器实例,用于记录与当前模块相关的日志信息。__name__ 是当前模块的名称,通常是一个字符串,例如 'transformers.models.deepseek.configuration_deepseek'。使用模块名作为日志记录器名称有助于组织和过滤日志输出。

3. 定义预训练配置映射

DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
  • DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP: 这是一个字典,用于存储预训练模型配置文件的URL或路径。键是模型名称或标识符,值是对应的配置文件路径或URL。在这个例子中,它被初始化为空字典 {},意味着没有预先定义的预训练配置文件。

4. 定义 DeepseekV2Config

class DeepseekV2Config(PretrainedConfig):
    pass
  • DeepseekV2Config: 这是一个新的类,继承自 PretrainedConfig。这个类将包含所有特定于 DeepseekV2Model 的配置参数和方法。

解释

  1. model_type: 指定了模型类型为 "deepseek-v2",这是在 PretrainedConfig 中用来识别不同模型类型的字段。

  2. __init__ 方法: 初始化函数,设置了所有配置参数的默认值。这些参数包括词汇表大小、隐藏层维度、注意力头数量等。每个参数都有一个默认值,用户可以根据需要进行调整。

  3. super().__init__ 调用: 调用了父类 PretrainedConfig 的初始化方法,传递了必要的参数(如 pad_token_id, bos_token_id, eos_token_id 等)以及任何额外的关键字参数(**kwargs),以确保兼容性和扩展性。

使用示例

如何使用 DeepseekV2Config 类来创建和访问配置对象的示例:

from transformers import DeepseekV2Model, DeepseekV2Config

# 初始化一个DeepSeek-V2风格的配置
configuration = DeepseekV2Config()

# 访问模型配置
print(configuration.vocab_size)  # 输出: 102400
print(configuration.hidden_size)  # 输出: 4096

# 创建一个DeepSeek-V2模型实例
model = DeepseekV2Model(configuration)

# 访问模型配置
model_config = model.config
print(model_config.vocab_size)  # 输出: 102400

http://www.kler.cn/a/548965.html

相关文章:

  • SpringCloud中Sentinel基础场景和异常处理
  • QT 互斥锁
  • 计算机视觉:卷积神经网络(CNN)基本概念(一)
  • 2025寒假第三周周报
  • matlab功率谱反演法
  • 什么是信创?信创国产化改造建设实施方案,信创平台搭建,信创技术方案
  • 借3D视觉定位东风,汽车零部件生产线实现无人化的精准飞跃
  • ChatGPT行业热门应用提示词案例-AI绘画类
  • Windows 自动主题:Windows AutoTheme
  • DeepSeek R1 本地部署和知识库搭建
  • 深入探索 AI 提示词工程:让 AI 更懂你
  • Linux软件编程(2)
  • 力扣 66.加一 (Java实现)
  • 17二叉搜索树的lca、插入、删除
  • 动手实现一个PDF阅读器
  • 知识图谱Neo4j网页版的快速使用(详细教程:安装+基础使用)
  • stm32mp15x 之 M4 使用 canfd
  • 麒麟系统离线安装SVN
  • 大语言模型常用微调与基于SFT微调DeepSeek R1指南
  • 区块链安全:使用安全的数字孪生框架构建智能、健康的城市