当前位置：首页 > article >正文

搜广推校招面经四十七

article 2025/3/15 22:54:03

字节推荐算法

一、postln和preln介绍一下

1.1. Post-Layer Normalization (PostLN)

PostLN 是 Transformer 模型中的经典设计，将Layer Normalization放在残差连接之后。这意味着，在每个子层（如多头自注意力机制或前馈神经网络）处理完输入并添加了残差连接后，才会应用Layer Normalization。具体形式如下：

特点：
- 在深层 Transformer 中，容易导致梯度不稳定的问题，因为Layer Normalization可能会引入额外的梯度消失风险
- 需要较小的学习率和 warm-up 阶段来稳定训练。

1.2. Pre-Layer Normalization (PreLN)

PreLN 是一种改进的设计，是在残差连接之前就应用Layer Normalization

特点：
- 训练更稳定，尤其是在深层 Transformer 中。也不需要 warm-up 阶段，可以使用较大的学习率。
- 通常比 PostLN 表现更好，可以使得每一层接收到的输入更加标准化，有助于缓解梯度消失问题

1.3. 对比总结

特性	PostLN	PreLN
LN 位置	子层输出后	子层输入前
训练稳定性	较差，需要 warm-up	较好，无需 warm-up
深层模型表现	较差	较好
实现复杂度	简单	简单

推荐使用：在深层 Transformer 模型中，PreLN 通常是更好的选择。

二、了解行为序列建模？介绍SIM，softsearch和hardsearch分别是什么。

见【搜广推校招面经二十八】、【搜广推校招面经十二】

SIM（Search-based Interest Model）是由阿里妈妈提出的一种基于搜索的用户兴趣建模方法，旨在解决如何利用用户的长期行为序列数据进行点击率（CTR）预测的问题。
在推荐系统和广告系统中，SIM模型通过两阶段的搜索机制来处理超长用户行为序列，并从中提取出与当前候选商品相关的用户兴趣

2.1. SIM概述

SIM模型主要由两个单元组成：通用搜索单元（General Search Unit, GSU）和精确搜索单元（Exact Search Unit, ESU）。GSU负责从原始的、任意长度的用户行为数据中筛选出与特定候选商品相关的子序列（SBS），而ESU则进一步对这些筛选后的子序列进行详细建模，以捕捉用户对于该候选商品的具体兴趣点