DeepSeek-VL2 模型的配置
DeepSeek-VL2 模型的配置
flyfish
DeepSeek-VL2\deepseek_vl2\models\configuration_deepseek.py
from transformers.configuration_utils import PretrainedConfig
from transformers.utils import logging
logger = logging.get_logger(__name__)
DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
class DeepseekV2Config(PretrainedConfig):
model_type = "deepseek_v2"
keys_to_ignore_at_inference = ["past_key_values"]
def __init__(
self,
vocab_size=102400,
hidden_size=4096,
intermediate_size=11008,
moe_intermediate_size = 1407,
num_hidden_layers=30,
num_attention_heads=32,
num_key_value_heads=32,
n_shared_experts = None,
n_routed_experts = None,
ep_size = 1,
routed_scaling_factor = 1.0,
kv_lora_rank = 512,
q_lora_rank = 1536,
qk_rope_head_dim = 64,
v_head_dim = 128,
qk_nope_head_dim = 128,
topk_method = 'gready',
n_group = None,
topk_group = None,
num_experts_per_tok = None,
moe_layer_freq = 1,
first_k_dense_replace = 0,
norm_topk_prob = False,
scoring_func = 'softmax',
aux_loss_alpha = 0.001,
seq_aux = True,
hidden_act="silu",
max_position_embeddings=2048,
initializer_range=0.02,
rms_norm_eps=1e-6,
use_cache=True,
pad_token_id=None,
bos_token_id=100000,
eos_token_id=100001,
pretraining_tp=1,
tie_word_embeddings=False,
rope_theta=10000.0,
rope_scaling=None,
attention_bias=False,
attention_dropout=0.0,
use_mla=True,
**kwargs,
):
self.vocab_size = vocab_size
self.max_position_embeddings = max_position_embeddings
self.hidden_size = hidden_size
self.intermediate_size = intermediate_size
self.moe_intermediate_size = moe_intermediate_size
self.num_hidden_layers = num_hidden_layers
self.num_attention_heads = num_attention_heads
self.n_shared_experts = n_shared_experts
self.n_routed_experts = n_routed_experts
self.ep_size = ep_size
self.routed_scaling_factor = routed_scaling_factor
self.kv_lora_rank = kv_lora_rank
self.q_lora_rank = q_lora_rank
self.qk_rope_head_dim = qk_rope_head_dim
self.v_head_dim = v_head_dim
self.qk_nope_head_dim = qk_nope_head_dim
self.topk_method = topk_method
self.n_group = n_group
self.topk_group = topk_group
self.num_experts_per_tok = num_experts_per_tok
self.moe_layer_freq = moe_layer_freq
self.first_k_dense_replace = first_k_dense_replace
self.norm_topk_prob = norm_topk_prob
self.scoring_func = scoring_func
self.aux_loss_alpha = aux_loss_alpha
self.seq_aux = seq_aux
# for backward compatibility
if num_key_value_heads is None:
num_key_value_heads = num_attention_heads
self.num_key_value_heads = num_key_value_heads
self.hidden_act = hidden_act
self.initializer_range = initializer_range
self.rms_norm_eps = float(rms_norm_eps)
self.pretraining_tp = pretraining_tp
self.use_cache = use_cache
self.rope_theta = rope_theta
self.rope_scaling = rope_scaling
self.attention_bias = attention_bias
self.attention_dropout = attention_dropout
self.use_mla = use_mla
super().__init__(
pad_token_id=pad_token_id,
bos_token_id=bos_token_id,
eos_token_id=eos_token_id,
tie_word_embeddings=tie_word_embeddings,
**kwargs,
)
解释
配置一个名为DeepseekV2Model
的深度学习模型。以下是各个参数的具体含义:
- vocab_size:词汇表大小,决定了模型能够处理的最大单词数量。
- hidden_size:隐藏层维度,影响模型内部表示的复杂度。
- intermediate_size:中间层维度,通常是MLP层的维度。
- moe_intermediate_size:专家混合(MoE)层的中间维度。
- num_hidden_layers:Transformer解码器中的隐藏层数量。
- num_attention_heads:每个注意力层中的注意力头数量。
- n_shared_experts 和 n_routed_experts:分别指共享专家和路由专家的数量,这些参数用于实现专家混合(MoE)机制。
- routed_scaling_factor:路由专家的比例因子。
- topk_method:用于路由门的选择方法。
- n_group 和 topk_group:路由专家的组数及每个token选择的组数。
- num_experts_per_tok:每个token选择的专家数量。
- moe_layer_freq:MoE层出现的频率。
- first_k_dense_replace:浅层层中的密集层数量。
- norm_topk_prob:是否对路由专家的权重进行归一化。
- scoring_func:计算专家权重的方法。
- aux_loss_alpha:辅助损失的权重系数。
- seq_aux:是否为每个样本计算辅助损失。
- num_key_value_heads:用于实现分组查询注意力的key_value头的数量。
- hidden_act:解码器中的非线性激活函数。
- max_position_embeddings:模型能处理的最大序列长度。
- initializer_range:初始化权重矩阵的标准差。
- rms_norm_eps:RMS标准化层中的epsilon值。
- use_cache:是否返回最后的键/值注意力。
- pad_token_id:填充token的ID。
- bos_token_id 和 eos_token_id:流开始和结束的token ID。
- pretraining_tp:预训练期间使用的张量并行度等级。
- tie_word_embeddings:是否绑定词嵌入权重。
- rope_theta:RoPE嵌入的基础周期。
- rope_scaling:RoPE嵌入的缩放配置。
- attention_bias:是否在自我注意力机制中使用偏置。
- attention_dropout:注意力概率的dropout率。
- use_mla:是否使用多潜在注意力。
存储[DeepseekV2Model
]配置的类,它被用来根据特定参数实例化一个DeepSeek模型,并定义该模型的架构。使用默认值实例化配置将会产生与具有多潜在注意力的DeepSeek-V2相似的配置。
配置对象继承自[PretrainedConfig
],可用于控制模型输出。
参数:
- vocab_size (
int
, 可选, 默认为102400):词汇量大小,定义了可以通过传递给[DeepseekV2Model
]的inputs_ids
表示的不同token的数量。 - hidden_size (
int
, 可选, 默认为4096):隐藏层维度。 - intermediate_size (
int
, 可选, 默认为11008):MLP(多层感知器)维度。 - moe_intermediate_size (
int
, 可选, 默认为1407):Moe(专家混合)维度。 - num_hidden_layers (
int
, 可选, 默认为32):Transformer解码器中的隐藏层数量。 - num_attention_heads (
int
, 可选, 默认为32):Transformer解码器中每个注意力层的注意力头数量。 - n_shared_experts (
int
, 可选, 默认为None):共享专家的数量,None表示密集模型。 - n_routed_experts (
int
, 可选, 默认为None):路由专家的数量,None表示密集模型。 - routed_scaling_factor (
float
, 可选, 默认为1.0):路由专家的比例因子。 - topk_method (
str
, 可选, 默认为gready
):在路由门中使用的Topk方法。 - n_group (
int
, 可选, 默认为None):路由专家的组数。 - topk_group (
int
, 可选, 默认为None):为每个token选择的组数(确保所选专家仅在topk_group
组内)。 - num_experts_per_tok (
int
, 可选, 默认为None):选择的专家数量,None表示密集模型。 - moe_layer_freq (
int
, 可选, 默认为1):MoE层的频率:每moe_layer_freq - 1
个密集层有一个专家层。 - first_k_dense_replace (
int
, 可选, 默认为0):浅层层(embed->dense->dense->…->dense->moe->moe…->lm_head)中的密集层数量。 - norm_topk_prob (
bool
, 可选, 默认为False):是否归一化路由专家的权重。 - scoring_func (
str
, 可选, 默认为’softmax’):计算专家权重的方法。 - aux_loss_alpha (
float
, 可选, 默认为0.001):辅助损失权重系数。 - seq_aux (
bool
, 可选, 默认为True):是否为每个单独样本计算辅助损失。 - num_key_value_heads (
int
, 可选):用于实现分组查询注意力的key_value头的数量。如果num_key_value_heads=num_attention_heads
,则模型将使用多头注意力(MHA),如果num_key_value_heads=1
,则模型将使用多查询注意力(MQA),否则使用GQA。转换多头检查点到GQA检查点时,每个组的关键值头应通过平均池化该组内的所有原始头来构建。更多详情请参阅这篇论文。如果没有指定,默认为num_attention_heads
。 - hidden_act (
str
或function
, 可选, 默认为"silu"):解码器中的非线性激活函数(函数或字符串)。 - max_position_embeddings (
int
, 可选, 默认为2048):此模型可能使用的最大序列长度。 - initializer_range (
float
, 可选, 默认为0.02):初始化所有权重矩阵的截断正态分布的标准差。 - rms_norm_eps (
float
, 可选, 默认为1e-06):rms标准化层中使用的epsilon。 - use_cache (
bool
, 可选, 默认为True
):模型是否返回最后的键/值注意力(并非所有模型都使用)。仅当config.is_decoder=True
时相关。 - pad_token_id (
int
, 可选):填充token id。 - bos_token_id (
int
, 可选, 默认为1):流开始token id。 - eos_token_id (
int
, 可选, 默认为2):流结束token id。 - pretraining_tp (
int
, 可选, 默认为1):实验功能。预训练期间使用的张量并行度等级。有关详细信息,请参阅这个文档。为了确保预训练结果的精确再现,此值是必要的。请参阅这个问题。 - tie_word_embeddings (
bool
, 可选, 默认为False
):是否绑定词嵌入权重。 - rope_theta (
float
, 可选, 默认为10000.0):RoPE嵌入的基础周期。 - rope_scaling (
Dict
, 可选):包含RoPE嵌入缩放配置的字典。目前支持两种缩放策略:线性和动态。它们的缩放因子必须是一个大于1的浮点数。期望格式为{"type": 策略名称, "factor": 缩放因子}
。使用此标志时,不要更新max_position_embeddings
以适应新的最大值。 - attention_bias (
bool
, 默认为False
, 可选, 默认为False
):在自我注意的查询、键、值和输出投影层中是否使用偏置。 - attention_dropout (
float
, 可选, 默认为0.0):注意力概率的dropout率。 - use_mla (
bool
, 可选, 默认为True
):使用多潜在注意力或多头注意力。如果为True,则模型将使用多潜在注意力;否则,将使用多头注意力。
from transformers import DeepseekV2Model, DeepseekV2Config
# 初始化一个DeepSeek-V2风格的配置
configuration = DeepseekV2Config()
# 访问模型配置
configuration = model.config
这段代码定义了一个名为 DeepseekV2Config
的配置类,该类继承自 PretrainedConfig
类,并用于配置一个名为 DeepseekV2Model
的深度学习模型。
1. 导入模块
from transformers.configuration_utils import PretrainedConfig
from transformers.utils import logging
-
PretrainedConfig
: 这是从transformers
库中导入的一个基类,用于存储和管理预训练模型的配置信息。所有特定于模型的配置类(如DeepseekV2Config
)都继承自这个基类。 -
logging
: 这是从transformers
库中导入的工具,用于记录日志信息。日志记录对于调试和监控应用程序非常有用。
2. 设置日志记录器
logger = logging.get_logger(__name__)
logger
: 创建一个日志记录器实例,用于记录与当前模块相关的日志信息。__name__
是当前模块的名称,通常是一个字符串,例如'transformers.models.deepseek.configuration_deepseek'
。使用模块名作为日志记录器名称有助于组织和过滤日志输出。
3. 定义预训练配置映射
DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
DEEPSEEK_PRETRAINED_CONFIG_ARCHIVE_MAP
: 这是一个字典,用于存储预训练模型配置文件的URL或路径。键是模型名称或标识符,值是对应的配置文件路径或URL。在这个例子中,它被初始化为空字典{}
,意味着没有预先定义的预训练配置文件。
4. 定义 DeepseekV2Config
类
class DeepseekV2Config(PretrainedConfig):
pass
DeepseekV2Config
: 这是一个新的类,继承自PretrainedConfig
。这个类将包含所有特定于DeepseekV2Model
的配置参数和方法。
解释
-
model_type
: 指定了模型类型为"deepseek-v2"
,这是在PretrainedConfig
中用来识别不同模型类型的字段。 -
__init__
方法: 初始化函数,设置了所有配置参数的默认值。这些参数包括词汇表大小、隐藏层维度、注意力头数量等。每个参数都有一个默认值,用户可以根据需要进行调整。 -
super().__init__
调用: 调用了父类PretrainedConfig
的初始化方法,传递了必要的参数(如pad_token_id
,bos_token_id
,eos_token_id
等)以及任何额外的关键字参数(**kwargs
),以确保兼容性和扩展性。
使用示例
如何使用 DeepseekV2Config
类来创建和访问配置对象的示例:
from transformers import DeepseekV2Model, DeepseekV2Config
# 初始化一个DeepSeek-V2风格的配置
configuration = DeepseekV2Config()
# 访问模型配置
print(configuration.vocab_size) # 输出: 102400
print(configuration.hidden_size) # 输出: 4096
# 创建一个DeepSeek-V2模型实例
model = DeepseekV2Model(configuration)
# 访问模型配置
model_config = model.config
print(model_config.vocab_size) # 输出: 102400