重要!!! 什么是梯度方差 ; AdaLoRA中的Fisher信息矩阵:核心作用与通俗举例
什么是梯度方差(Fisher信息近似)
AdaLoRA中的Fisher信息矩阵:核心作用与通俗举例
目录
-
- 什么是梯度方差(Fisher信息近似)
- AdaLoRA中的Fisher信息矩阵:核心作用与通俗举例
-
-
- 一句话总结
- 🍉 通俗例子:炒菜放盐的“重要性”
- 🧠 具体原理与示例(文本分类任务)
- 🔍 为什么有效?
- 🌰 玩具数据演示
- 通过梯度方差量化参数重要性:一个玩具级计算示例
-
- 步骤1:定义数据与损失
- 步骤2:计算每个样本的梯度(以 w 1 w_1 w1为例)
- 1. **Z的含义与公式参数**
- 2. **L(损失值)的含义与公式参数**
-
- 步骤3:计算梯度方差(Fisher信息近似)
- 步骤4:对比参数重要性
- 步骤5:AdaLoRA如何利用方差?
- 关键结论:为什么方差=重要性?
- 真实场景类比:考试复习
-
Fisher矩阵的本质:通过参数梯度的方差,量化参数对任务的敏感程度(方差越大,参数越重要)。
一句话总结
Fisher信息矩阵是衡量模型参数对任务重要性的“温度计”,AdaLoRA用它识别哪些参数需要**“小心保护”(避免过度更新)**,哪些可以“大胆调整”。
🍉 通俗例子:炒菜放盐的“重要性”
假设你要炒一盘菜,盐的用量(对应模型参数)对味道影响极大(高Fisher值)&#x