当前位置: 首页 > article >正文

AdapterBias

AdapterBias 的具体实现方式。

AdapterBias 的核心思想

AdapterBias 的目标是用最小的参数改动,让预训练语言模型(比如 BERT)适配下游任务。它不像传统的适配器那样插入复杂的模块,而是通过简单地在变换器层(transformer layers)的隐藏输出上加一个偏移(shift),来实现调整。这个偏移是“token-dependent”(依赖于标记的),也就是说,每个输入标记(token,比如句子中的每个词)都会有自己的调整值。这种设计既轻量又灵活。

具体来说,AdapterBias 的实现可以分解为以下几个关键部分:

  1. 基础模型:预训练的 BERT,保持冻结(不更新权重)。
  2. 偏移机制:在变换器层的隐藏输出上加一个调整向量。
  3. 参数组成:仅用一个向量和一个线性层生成这个偏移。
  4. 训练:只训练这些新增参数,下游任务的损失通过它们反向传播。

实现步骤

1. 预训练模型的隐藏输出

假设你在用 BERT,它由多个变换器层组成。每个层处理输入序列后,会生成一个隐藏状态(hidden state)。对于一个输入序列 ( X = [x_1, x_2, …, x_n] )(n 是序列长度,比如句子的词数),第 ( l ) 层的隐藏输出可以表示为 ( H^l = [h_1^l, h_2^l, …, h_n^l] ),其中:

  • ( h_i^l ) 是第 ( i ) 个 token 在第 ( l ) 层的隐藏表示。
  • ( h_i^l ) 是个维度为 ( d ) 的向量(比如 BERT-base 中 ( d = 768 ))。

通常,下一层会直接拿 ( H^l ) 作为输入继续计算。但 AdapterBias 在这里插手,稍微调整一下 ( H^l )。

2. 引入 Token-Dependent Shift

AdapterBias 的核心是给每个 ( h_i^l ) 加一个偏移 ( \delta_i^l ),这个偏移是针对每个 token 单独计算的。所以调整后的隐藏输出变成:
[
\tilde{h}_i^l = h_i^l + \delta_i^l
]
这里的 ( \delta_i^l ) 就是 token-dependent shift,它的大小和方向取决于具体的 token ( x_i ) 和任务需求。

3. 生成偏移 ( \delta_i^l ) 的方法

为了保持参数高效,AdapterBias 不会为每个 token 和每层都存一个独立的偏移向量(那样参数量会爆炸)。文本提到它“只用一个向量和一个线性层”,我们可以推测实现方式如下:

  • 向量:定义一个可训练的向量 ( b^l ),维度为 ( d )(和隐藏状态一样,比如 768)。这个向量是层的共享参数。
  • 线性层:用一个小型线性变换 ( W^l )(矩阵维度可能是 ( d \times k ) 或 ( k \times d )),从 ( h_i^l ) 生成一个调整值。( k ) 是个小的中间维度,可能比 ( d ) 小得多(比如 ( k = 64 )),以减少参数。
  • 计算过程
    1. 拿 ( h_i^l ) 作为输入,通过线性层 ( W^l ) 投影到一个低维空间:
      [
      z_i^l = W^l \cdot h_i^l
      ]
      这里 ( z_i^l ) 的维度是 ( k )。
    2. 再用一个向量 ( b^l )(或者另一个小的线性层)把 ( z_i^l ) 映射回 ( d ) 维,得到偏移:
      [
      \delta_i^l = b^l + V^l \cdot z_i^l
      ]
      (( V^l ) 是另一个可选的线性层,维度 ( k \times d );如果简化,可能直接用 ( b^l ) 作为偏移基线。)

最终,( \delta_i^l ) 是 token-specific 的,因为它依赖于 ( h_i^l )(每个 token 的隐藏状态都不一样)。

4. 参数量分析
  • 一个向量 ( b^l ):( d ) 个参数(比如 768)。
  • 一个线性层 ( W^l ):假设 ( d = 768 ),( k = 64 ),参数量是 ( 768 \times 64 = 49,152 )。
  • 如果有 ( V^l ):再加 ( 64 \times 768 = 49,152 )。

假设每层都加这么一个结构,对于 BERT 的 12 层,总参数量大概是 ( 12 \times (768 + 49,152) \approx 600,000 ) 个参数。相比 BERT 总共 1.1 亿参数,这确实少得多。而文本说比 Bottleneck Adapter 少 40 倍,说明 Bottleneck 的参数量可能在 2400 万左右(每个适配器有更多参数,比如上下投影层)。

5. 融入模型
  • 在每个变换器层(或者部分层,比如只在某些层加),计算完原始 ( h_i^l ) 后,加上 ( \delta_i^l ) 得到 ( \tilde{h}_i^l )。
  • ( \tilde{h}_i^l ) 传给下一层,继续前向传播。
  • 预训练的 BERT 参数不动,只训练 ( b^l ) 和 ( W^l )(以及可能的 ( V^l ))。
6. 训练
  • 用下游任务的数据(比如文本分类的数据集)计算损失。
  • 损失通过反向传播只更新 AdapterBias 的参数(( b^l ) 和 ( W^l )),BERT 的权重保持冻结。
  • 由于参数少,训练快,内存占用也低。

和 BitFit 的关系

BitFit 只调整模型中已有的偏置项(bias terms),比如线性层里的 ( b )。AdapterBias 更进一步:

  • BitFit 的调整是静态的(每个偏置是个固定值),而 AdapterBias 的偏移是动态的(通过 ( h_i^l ) 计算,token-dependent)。
  • AdapterBias 加了少量新参数(线性层),比 BitFit 稍复杂,但比全适配器简单。

为什么高效?

  1. 参数少:只加一个向量和线性层,比传统适配器的瓶颈结构(两层投影)节省得多。
  2. 任务适配性:token-dependent shift 让模型能灵活捕捉每个词的细微差异,适合 NLP 任务。
  3. 兼容性:用在 BERT 上效果好,说明它能很好地利用预训练知识。

可能的代码示意(伪代码)

class AdapterBias(nn.Module):
    def __init__(self, hidden_dim=768, adapter_dim=64):
        super().__init__()
        self.W = nn.Linear(hidden_dim, adapter_dim)  # 线性层
        self.b = nn.Parameter(torch.zeros(hidden_dim))  # 可训练向量

    def forward(self, hidden_states):
        # hidden_states: [batch_size, seq_len, hidden_dim]
        z = self.W(hidden_states)  # 投影到低维
        delta = self.b + z @ self.W.weight.T  # 偏移(简化版)
        return hidden_states + delta

# 用在 BERT 的某层
bert_layer_output = bert_layer(input)
output_with_adapter = AdapterBias()(bert_layer_output)

总结

AdapterBias 通过在变换器层的隐藏输出上加一个 token-specific 的偏移(用向量和线性层生成),实现了高效微调。它结合了 BitFit 的轻量思想,又增加了灵活性,参数量比 Bottleneck Adapter 少 40 倍,却能保持竞争力。这是个聪明且实用的设计,尤其适合资源有限或快速适配的场景。

如果你想更深入,比如具体实验结果或代码实现,我可以再帮你找找相关资料!你觉得这个解释够清楚吗?有什么想补充的吗?


http://www.kler.cn/a/560306.html

相关文章:

  • 怎么本地部署deepseek(超级详细教程)
  • 数据库索引:原理、设计与优化
  • GPIO最大输出速度
  • SAP-ABAP:ABAP第一代增强详解主讲(User Exits(用户出口))
  • 特辣的海藻!3
  • Java 大视界 —— Java 大数据在智能零售动态定价策略中的应用实战(98)
  • Visual Studio打开文件后,中文变乱码的解决方案
  • C# httpclient 和 Flurl.Http 的测试
  • 人工智能毕业设计_基于bert,gradio等的垃圾短信过滤系统
  • Python生成器250224
  • SmartMediakit之音视频直播技术的极致体验与广泛应用
  • Quickwit获取Kafka数据源消息
  • Python爬虫实战:从青铜到王者的数据采集进化论
  • 【CS285】为什么需要推导 REINFORCE-Gradient 公式呀?
  • 标定系列——基于标定板的相机内参与LiDAR-相机外参联合标定方法
  • IOS基础面试题
  • 数学建模之数学模型—2:非线性规划
  • Visual Whole-Body for Loco-Manipulation论文复现
  • 【Unity】Unity clone 场景渲染的灯光贴图异位问题
  • 【Java 优选算法】模拟