当前位置：首页 > article >正文

NLP模型大对比：Transformer(Bert) ＞ RNN ＞ n-gram

article 2025/1/31 3:09:52

结论

我们可以用一个 图书馆查询 的类比来解释它们的差异：

n-gram 像用 望远镜片段观察
例：处理句子 "虽然价格贵但质量真的好"
- 3-gram只能看到局部组合：
  ["价格_贵_但", "贵_但_质量", "但_质量_真"]
- 无法关联首尾的 "价格" 和 "质量" 的对比关系
BERT 像用 全景扫描仪
通过自注意力机制，让每个词都能关注到句子中所有其他词：
```
# "质量"对"价格"的注意力权重可能高达0.7
# "但"对"虽然"的注意力权重可能达0.6
```

n-gram 的局限性案例
输入： "苹果股价大涨，因为新品很甜"
- 3-gram会错误关联："新品_很_甜" → 可能预测"西瓜"（高频搭配）
- 无法发现 "苹果" 在此处指公司而非水果

BERT 的解决方案
通过上下文注意力权重识别语义：

"苹果" ← 关注到 "股价" (权重0.8) → 判定为企业  
"甜"   ← 关注到 "新品" (权重0.3) + "股价" (权重0.6) → 判定为比喻用法

n-gram 的困境
遇到新词 "元宇宙"：
- 所有包含 "元宇宙" 的n-gram都成为低频组合
- 导致预测结果不可靠
BERT 的优势
通过词向量和注意力机制：
- 即使没出现过 "元宇宙"，也能根据词根 "元"+"宇宙"_ 推测其语义
- 类似处理过 "元数据" 和 "宇宙探索" 的经验

n-gram 和 RNN 在自然语言处理中是两种截然不同的建模思路，我们可以通过 图书馆管理 的类比来理解它们的核心差异：

n-gram 像 接力赛跑
每个预测只依赖前一棒选手（前N-1个词）：

输入："我想喝一杯热的"
3-gram预测流程：
想喝→杯 → 喝杯→热 → 杯热→的 → 热的→[END]

RNN 像 滚雪球
通过隐藏状态积累历史信息：

hidden_state = update("我", init_state)
hidden_state = update("想", hidden_state)
hidden_state = update("喝", hidden_state)
# 当处理到"热"时，隐藏状态已包含"我/想/喝"的信息

n-gram 的局限案例
句子："虽然这款手机价格比同类产品高2000元，但它的_"
- 5-gram只能看到"产品高2000元但它的"
- 无法关联开头的"虽然"与结尾的预测

RNN 的优势体现
通过隐藏状态传递，即使相距20个词：

h_("虽然") → h_("价格") → ... → h_("它的") 
仍保留着转折关系的语义特征

以 诗歌生成 任务为例：

关键差异：