当前位置：首页 > article >正文

精通推荐算法31：行为序列建模之ETA — 基于SimHash实现检索索引在线化

article 2025/4/2 21:17:00

1 行为序列建模总体架构

2 SIM模型的不足和为什么需要ETA模型

SIM实现了长周期行为序列的在线建模，其GSU检索单元居功至伟。但不论Hard-search还是Soft-search，都存在如下不足：

GSU检索的目标与主模型不一致。Hard-search通过类目属性来筛选历史行为，但不同类目不代表相关度低，比如啤酒和尿布。Soft-search通过辅助模型的Embedding来检索top-K近邻，但辅助模型与主模型有不一致问题。
GSU检索的索引更新频率与主模型不一致。索引规模一般很大，通常需要离线构建，很难在线频繁更新。而目前很多精排模型都实现了在线学习，其更新频率很快。这就导致GSU检索时可能还在使用已过时的离线索引。

要解决这一问题，最好的办法是将近邻搜索从离线转化为在线。但在线进行内积计算求相似度，对于长序列来说，耗时过高。所以关键在于如何找到一种快速进行相似度计算的方法。ETA模型应运而生。

ETA（ End-to-End Target Attention）由阿里巴巴推荐团队于2021年提出，全称“ End-to-End User Behavior Retrieval in Click-Through Rate Prediction Model”[9]。它受到NLP中Reformer模型的启发，通过SimHash实现了快速计算相似度，从而实现了近邻搜索的在线化。

3 ETA模型结构

ETA同样采用先检索后建模的二阶段方式，主要针对检索阶段进行优化。其核心点在于，将相似度计算从向量内积，转化为了SimHash和海明距离。大大加快了近邻搜索，从而不需要离线构建top-K索引，直接在线计算即可，使得索引更新频率可以与主模型保持一致。另外检索阶段直接使用主模型的Embedding，不需要额外的辅助模型，从而使得二者目标保持一致。ETA模型结构如图5-18所示。

先通过检索模块将长序列抽取为短序列，如图5-18左下角虚线框内所示。然后再通过Multi-Head Target Attention建模得到其表征向量。然后再和用户短序列建模后的表征向量、用户侧和物品侧其他特征向量等，一起合并，如图5-18右下角所示。之后再通过MLP全连接网络得到输出，如图5-18右上角所示。整个过程与SIM比较相近，关键在于检索阶段相似度计算的方法不同。SIM采用向量内积计算余弦相似度，而ETA则为SimHash和海明距离。下面重点来看怎么实现的。

4 SimHash原理

SimHash是一种局部敏感哈希，可以快速实现向量压缩。其计算过程为：

如图5-19所示，空间中的两向量x和y，经过了四次随机旋转。每次旋转可认为是一个哈希函数，旋转后位于下半轴（黄色所示）则取值为1，上半轴（蓝色所示）则为0。最终分别压缩为一个四维二进制向量。对比两次哈希过程可以发现，当x和y本身比较相近时，其SimHash后的结果也相近。

ETA中，先利用主模型的Embedding计算SimHash。线上推理时，取出候选物品和每个历史行为对应物品的SimHash结果，计算海明距离。最后取出top-K距离最近的，即完成了检索过程。海明距离为，两向量相同位置元素不同的个数。当两向量相同时，其海明距离为0。海明距离可以通过异或运算得到，其计算速度非常快。

5 ETA总结和思考

ETA通过对SIM检索阶段相似度计算方式的升级，使得top-K近邻搜索索引不需要离线构建，从而最大限度保证了检索阶段和主模型的一致性。可以发现，从MIMN离线建模长周期序列，发展到SIM离线构建索引，在线实现检索和建模，再发展到ETA索引也实现了在线化。模型每个部分逐步从离线过渡到在线，提升了整体一致性和更新频率。