当前位置：首页 > article >正文

ctr特征重要性建模：FiBiNetFiBiNet++模型

article 2025/2/21 3:37:33

FiBiNET（Feature Importance and Bilinear feature Interaction NETwork）为推荐系统的CTR模型提出了一些创新方向：

引入一个SENet模块，可以动态学习特征的重要性；
引入一个双线性模块（Bilinear-Interaction layer），来改进特征交互方式。

可以看出，FiBiNET模型主要的工作都是在特征建模方向，但论文没有说明为什么特征建模在ctr模型中如此重要？下面我们引用论文作者的一张图：

ctr任务中大部分特征是ID类特征，并且数据是十分稀疏的。ctr模型中的参数绝大部分都为特征Embedding，可见其重要程度，而特征重要性建模则是更好地利用这些特征的方向之一。（PS：另外一个方向是频次相关的变长embedding）

1. FiBiNet

论文：FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction

地址：https://arxiv.org/abs/1905.09433

从下图的网络结构，可以看出FiBiNet模型其实不复杂，主要在深度ctr模型baseline中引入了SENet和Bilinear-Interaction：

不同的特征转换为Embeddings E；
Embeddings输入到SENet Layer，得到SENet-Like Embeddings V；
Embeddings E和V分别经过双线性特征交互层，得到p和q；
p和q进行拼接，输入到DNN全连接层，最后使用sigmoid函数得到预测概率。

1.1 Embedding Layer

为了方便表述，在这里稍微讲下field和feature的区别：field是一类特征，而feature则是具体的特征值。比如性别、学历等等都是field，而feature则表示性别为男、学历为本科。

那么，这些ID类输入经过Embedding Layer，并且进行拼接，输出则为： $E=[e_1,e_2,...,e_i,...,e_f],e_i\in R^k$ 表示第i个field的embedding，f为fileds的数量，k则为embedding的维度。

1.2 SENet

众所周知，不同的特征在特定的任务中，重要性是不一样的。SENet可以帮助我们对特征重要性进行建模，在ctr任务中，通过SENet可以动态地增加重要特征的权重，和降低无关特征的权重。

SENet接收embedding layer的输出，产出权重向量 $A=\{a_1,...,a_i,...,a_f\}，a_i$ 为标量，代表第i个field embedding的权重。然后把原来的embedding E重新缩放为一个新的embedding（SENet-Like embedding） $V=[v_1,...,v_i,...,v_f]$ 。

如上图所示，SENet包括三个步骤：squeeze、excitation、re-weight。

Squeeze. 这一个步骤是为了计算每个field embedding的统计信息。使用mean或者max的pooling方法来挤压原来的Embedding E，变成一个统计向量 $Z=[z_1,...,z_i,...,z_f]，z_i$ 是一个标量，表征第i个feature的全局信息。

如下式则为mean pooling，论文实验了mean pooling比max pooling的效果更佳：

**Excitation. ** 这一个步骤是为了在统计向量Z的基础上，学习到每个field embedding的权重。具体方法也很简单，就是使用带激活函数的两个全连接层：

其中， $A\in R^f是一个向量，\sigma_1和\sigma_2$ 都为激活函数， $W_1\in R^{f\times \frac{f}{r}}和W_2\in R^{\frac{f}{r} \times f}$ 为训练参数，r为缩减比例，是一个超参数。

**Re-Weight. ** 这一个步骤是把权重向量A对原来的Embedding E进行缩放，得到SENet-Like embedding V。

1.3 Bilinear-Interaction

交互网络层的目的是为了计算二阶特征交互，如FM和FFM这些线层模型的特征交互是使用了inner product，如AFM和NFM这些深度模型则是使用Hadamard product。

但是，这两种方法都过于简单，在稀疏数据中难以进行有效的建模。因此，论文结合这两种方法，提出了另外一种交互方式：Bilinear- Interaction。

如上图所示，三种交互方式的区别也比较明显了。Inner Product就是内积，而Hadamard Product： $[a_1,a_2,a_3]\odot [b_1,b_2,b_3]=[a_1b_1,a2_b2,a3_b3]$ 。而双线性特征交互包括以下三种：

**Field-All Type： ** $p_{ij}=v_i\cdot W\odot v_j$ 。所有field共享一个隐矩阵 $W\in R^{k\times k}$ ，参数量为k·k；
**Field-Each Type： ** $p_{ij}=v_i\cdot W_i\odot v_j$ 。每一个filed都有自己的隐矩阵 $W_i\in R^{k\times k}$ ，参数量为f·k·k；
Field-Interaction Type： $p_{ij}=v_i\cdot W_{ij}\odot v_j$ 。不同的field之间的交互都有一个隐矩阵 $W_{ij}\in R^{k\times k}$ ，参数量为 $\frac{f(f-1)}{2}\times k \times k$ 。

其中， $v_i,v_j$ 分别是第i和j个field的embedding。三种双线性特征交互的区别就是在于交互的粒度不同。（这里的“隐矩阵”可能名称不准确，是为了能够与FM中的隐向量类比理解）

下图为不同双线性特征交互方式的效果对比，结论说明没有哪一种双线性特征交互是最好的，不同的数据集适合的交互方式可能不同：

如上图-[FiBiNet结构]所示，FiBiNet会分别把原来的embedding E和经过SENet之后的SENet-Like embedding V都送入双线性特征交互层，得到 $p=[p_1,...,p_i,...,p_n]\ and\ q=[q_1,...,q_i,...,q_n]，where p_i,q_i\in R^k$ ，然后将p和q进行拼接，给到DNN连接层中，最后使用sigmoid函数得到预测的点击概率。这与其他的ctr模型并无不同。

我们可以发现，FiBiNet移除SENet模块，其实就会退化为FNN模型；而移除DNN部分，它就可以退化为FM模型。

2. FiBiNet++

论文：FiBiNet++:Improving FiBiNet by Greatly Reducing Model Size for CTR Prediction

地址：https://arxiv.org/pdf/2209.05016.pdf

FiBiNet存在的问题是双线性特征交互层会导致第一层DNN连接层产生巨大参数量，由此提出了FIBiNet的改进版FiBiNet++，模型参数（非embedding参数）降低了12-16倍，并且效果还得到了提升。FiBiNet在bi-linear双线性特征交互层和SENet层都进行改进了。

FiBiNet++结构如下图[FiBiNet++结构]：

不同的特征（包括类别特征和数值特征）转换为Embeddings；
Embeddings经过Bi-Linear+层，得到输出 $H^{CML}$ ；
Embeddings经过SENet+层，得到输出 $V^{SENet+}$ ;
$H^{CML}$ 和 $V^{SENet+}$ 拼接，输入到多层的MLP，最后使用sigmoid函数得到预测概率。

FiBiNet结构

2.1 Bi-Linear+

上述已经介绍过，FiBiNet对特征 $x_i,x_j$ 交互的建模是通过引入可学习参数矩阵W的双线性函数，如下式：

$\circ，\otimes$ 分别代表内积和哈达玛积（ element-wise hadamard product）。W有三种参数形式：field all type、field each type、field interaction type。

但哈达玛积会产生大量的非必要参数，因此，FiBiNet++对双线性函数（bi-linear function）进行优化，提出bi-linear+，大大的减少双线性特征交互层的输出size。对于f个field，有下式：

接着，再引入一个MLP层来叠加向量P，如下式：

其中， $W_1\in \mathbb{R}^{m\times \frac{f\times(f-1)}{2}}，\sigma(\cdot)$ 是一个恒等映射函数，并且是不带非线性激活函数的，论文实验了加上非线性转换反而效果下降了。

2.2 SENet+

在FIBiNet模型中，SENet包括三个步骤：squeeze、excitation、re-weight。为了进一步增强模型表现，论文FiBiNet提出了SENet+，模块，SENet+包括了四个步骤：squeeze、excitation、re-weight、fuse，虽然前三个步骤相同，但每一步其实都经过了改进。

Squeeze. 考虑到更多的输入信息有利于提升模型的效果。因此，不同于SENet对每个feature使用mean pooling得到1-bit的统计信息，SENet+会将每个feature分割为多个组来得到多个1-bit的统计信息。

具体的，首先将每个经过标准化后的feature embedding $v_i\in \mathbb{R}^{1\times d}$ 分割为g个组（g是一个超参数），如该式： $v_i=concat[v_{i,1},v_{i,2},...,v_{i,g}]，where\ v_{i,j}\in \mathbb{R}^{1\times \frac{d}{g}}$ ，代表着第i个特征中第j个组的信息。然后在 $v_{i,j}$ 上使用max pooling和mean pooling来表征该组的信息，得到如下结果：

Excitation. 在SENet中，这一步得到的权重向量Z是field级别的，SENet+进一步细化，让权重向量改进为bit级别的，具体如下式：

其中， $W_2\in \mathbb{R}^{\frac{2gf}{r}\times 2gf}，W_3\in \mathbb{R}^{fd\times \frac{2gf}{r}}，\sigma_2(\cdot)=Relu(\cdot)，\sigma_3(\cdot)$ 是一个恒等映射函数，r仍然是一个代表缩减比率的超参数。