当前位置：首页 > article >正文

AdapterBias

article 2025/2/25 12:13:21

AdapterBias 的具体实现方式。

AdapterBias 的核心思想

AdapterBias 的目标是用最小的参数改动，让预训练语言模型（比如 BERT）适配下游任务。它不像传统的适配器那样插入复杂的模块，而是通过简单地在变换器层（transformer layers）的隐藏输出上加一个偏移（shift），来实现调整。这个偏移是“token-dependent”（依赖于标记的），也就是说，每个输入标记（token，比如句子中的每个词）都会有自己的调整值。这种设计既轻量又灵活。

具体来说，AdapterBias 的实现可以分解为以下几个关键部分：

基础模型：预训练的 BERT，保持冻结（不更新权重）。
偏移机制：在变换器层的隐藏输出上加一个调整向量。
参数组成：仅用一个向量和一个线性层生成这个偏移。
训练：只训练这些新增参数，下游任务的损失通过它们反向传播。

实现步骤

1. 预训练模型的隐藏输出

假设你在用 BERT，它由多个变换器层组成。每个层处理输入序列后，会生成一个隐藏状态（hidden state）。对于一个输入序列 ( X = [x_1, x_2, …, x_n] )（n 是序列长度，比如句子的词数），第 ( l ) 层的隐藏输出可以表示为 ( H^l = [h_1^l, h_2^l, …, h_n^l] )，其中：

( h_i^l ) 是第 ( i ) 个 token 在第 ( l ) 层的隐藏表示。
( h_i^l ) 是个维度为 ( d ) 的向量（比如 BERT-base 中 ( d = 768 )）。

通常，下一层会直接拿 ( H^l ) 作为输入继续计算。但 AdapterBias 在这里插手，稍微调整一下 ( H^l )。

2. 引入 Token-Dependent Shift

AdapterBias 的核心是给每个 ( h_i^l ) 加一个偏移 ( \delta_i^l )，这个偏移是针对每个 token 单独计算的。所以调整后的隐藏输出变成：
[
\tilde{h}_i^l = h_i^l + \delta_i^l
]
这里的 ( \delta_i^l ) 就是 token-dependent shift，它的大小和方向取决于具体的 token ( x_i ) 和任务需求。

3. 生成偏移 ( \delta_i^l ) 的方法

为了保持参数高效，AdapterBias 不会为每个 token 和每层都存一个独立的偏移向量（那样参数量会爆炸）。文本提到它“只用一个向量和一个线性层”，我们可以推测实现方式如下：

向量：定义一个可训练的向量 ( b^l )，维度为 ( d )（和隐藏状态一样，比如 768）。这个向量是层的共享参数。
线性层：用一个小型线性变换 ( W^l )（矩阵维度可能是 ( d \times k ) 或 ( k \times d )），从 ( h_i^l ) 生成一个调整值。( k ) 是个小的中间维度，可能比 ( d ) 小得多（比如 ( k = 64 )），以减少参数。
计算过程：
1. 拿 ( h_i^l ) 作为输入，通过线性层 ( W^l ) 投影到一个低维空间：
  [
  z_i^l = W^l \cdot h_i^l
  ]
  这里 ( z_i^l ) 的维度是 ( k )。
2. 再用一个向量 ( b^l )（或者另一个小的线性层）把 ( z_i^l ) 映射回 ( d ) 维，得到偏移：
  [
  \delta_i^l = b^l + V^l \cdot z_i^l
  ]
  （( V^l ) 是另一个可选的线性层，维度 ( k \times d )；如果简化，可能直接用 ( b^l ) 作为偏移基线。）

最终，( \delta_i^l ) 是 token-specific 的，因为它依赖于 ( h_i^l )（每个 token 的隐藏状态都不一样）。

4. 参数量分析

一个向量 ( b^l )：( d ) 个参数（比如 768）。
一个线性层 ( W^l )：假设 ( d = 768 )，( k = 64 )，参数量是 ( 768 \times 64 = 49,152 )。
如果有 ( V^l )：再加 ( 64 \times 768 = 49,152 )。

假设每层都加这么一个结构，对于 BERT 的 12 层，总参数量大概是 ( 12 \times (768 + 49,152) \approx 600,000 ) 个参数。相比 BERT 总共 1.1 亿参数，这确实少得多。而文本说比 Bottleneck Adapter 少 40 倍，说明 Bottleneck 的参数量可能在 2400 万左右（每个适配器有更多参数，比如上下投影层）。

5. 融入模型

在每个变换器层（或者部分层，比如只在某些层加），计算完原始 ( h_i^l ) 后，加上 ( \delta_i^l ) 得到 ( \tilde{h}_i^l )。
( \tilde{h}_i^l ) 传给下一层，继续前向传播。
预训练的 BERT 参数不动，只训练 ( b^l ) 和 ( W^l )（以及可能的 ( V^l )）。

6. 训练

用下游任务的数据（比如文本分类的数据集）计算损失。
损失通过反向传播只更新 AdapterBias 的参数（( b^l ) 和 ( W^l )），BERT 的权重保持冻结。
由于参数少，训练快，内存占用也低。

和 BitFit 的关系

BitFit 只调整模型中已有的偏置项（bias terms），比如线性层里的 ( b )。AdapterBias 更进一步：

BitFit 的调整是静态的（每个偏置是个固定值），而 AdapterBias 的偏移是动态的（通过 ( h_i^l ) 计算，token-dependent）。
AdapterBias 加了少量新参数（线性层），比 BitFit 稍复杂，但比全适配器简单。

为什么高效？

参数少：只加一个向量和线性层，比传统适配器的瓶颈结构（两层投影）节省得多。
任务适配性：token-dependent shift 让模型能灵活捕捉每个词的细微差异，适合 NLP 任务。
兼容性：用在 BERT 上效果好，说明它能很好地利用预训练知识。

可能的代码示意（伪代码）

class AdapterBias(nn.Module):
    def __init__(self, hidden_dim=768, adapter_dim=64):
        super().__init__()
        self.W = nn.Linear(hidden_dim, adapter_dim)  # 线性层
        self.b = nn.Parameter(torch.zeros(hidden_dim))  # 可训练向量

    def forward(self, hidden_states):
        # hidden_states: [batch_size, seq_len, hidden_dim]
        z = self.W(hidden_states)  # 投影到低维
        delta = self.b + z @ self.W.weight.T  # 偏移（简化版）
        return hidden_states + delta

# 用在 BERT 的某层
bert_layer_output = bert_layer(input)
output_with_adapter = AdapterBias()(bert_layer_output)

总结

AdapterBias 通过在变换器层的隐藏输出上加一个 token-specific 的偏移（用向量和线性层生成），实现了高效微调。它结合了 BitFit 的轻量思想，又增加了灵活性，参数量比 Bottleneck Adapter 少 40 倍，却能保持竞争力。这是个聪明且实用的设计，尤其适合资源有限或快速适配的场景。

如果你想更深入，比如具体实验结果或代码实现，我可以再帮你找找相关资料！你觉得这个解释够清楚吗？有什么想补充的吗？

查看全文

http://www.kler.cn/a/560306.html