【第7章:注意力机制与Transformer模型—7.3 注意力机制与Transformer模型的优化与改进策略】
一、从人脑到机器:注意力机制的前世今生
1.1 人脑的鸡尾酒会效应
想象你在热闹的派对上,周围有音乐声、谈笑声、餐具碰撞声,但当有人喊你名字时,你瞬间就能锁定这个声音——这就是著名的"鸡尾酒会效应"。人脑的注意力机制就像个智能滤波器,能自动识别关键信息并分配更多认知资源。2014年,当Google Brain团队首次将这种生物机制引入机器翻译时,注意力机制正式开启了它的AI征程。
1.2 传统序列模型的困局
在注意力机制登场前,RNN(循环神经网络)及其变体LSTM统治着序列建模领域。但这些模型存在三个致命缺陷:
- 记忆衰减:处理长文本时,早期信息像传话游戏般逐渐失真(梯度消失问题)
- 计算低效:必须严格按时间步顺序计算,无法并行
- 信息混淆:每个时间步被迫处理所有信息,缺乏重点
举个例子,当翻译"那只站在树下的棕色猫跳上了围墙"时,传统模型在输出"jumped"时可能已经遗忘了主语"cat"的细节,导致翻译错误。