当前位置：首页 > article >正文

【自动驾驶BEV感知之Transformer】

article 2025/2/28 19:41:33

欢迎大家关注我的B站：

偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com)

本文为深蓝学院《BEV感知理论与实践》的学习笔记

以图书馆看书举例
query：查询，感兴趣的东西
Key：索引，书的名字、目录
Value：值，书的详细内容
Transformer可以看作我们有自己感兴趣的方向，然后去图书馆里找，怎么找呢，肯定是看书的名字，翻一下目录来确定和你的兴趣是否匹配，如果匹配就翻开书挑里面感兴趣的东西进行学习
Attention也就是注意力是query和Key的点积，代表两者之间的相似度，相似肯定需要更加关注，然后通过Attention乘value也能更新value从而提取出value中更重要的内容

以Hi how are you 为例子，对这四个词进行编码，每个都得到一个256维的向量，可以理解为在256个维度对这个词的一些描述来表征这个词
然后他们分别对应的QKV通过同一批权重矩阵相乘得到
然后以Hi为例，他的query和别人的key点积得到Attention，再乘上别人的value得到在自己的value基础上可以更新的内容，然后Hi要和其他三个以及他自己都做这个操作
互相之间的QKV操作其实本质上是学习了更好的全局特征，通过别人来丰富自己
输入输出都是256维的向量，内部其实在相互之间学习，也称为self-Attention
self-Attention的本质是来自同一组embedding

这是矩阵的形式，核心就是得到了一个Attention矩阵
然后通过缩放更稳定，以及一个softmax得到了概率矩阵
self-Attention的目的是学习全局信息，找到自己的ID
multi-head：每个头独立关注输入的不同子空间，有助于学习多样化的特征，但维持整体输出维度不变

encoder和decoder如何交互
1. Query：来自 Decoder 当前时间步的隐藏状态。
2. Key 和 Value：来自 Encoder 的输出表示
三种Attention
1. encoder：自注意力机制
2. decoder：Masked 自注意力（屏蔽未来的词，确保自回归） → Encoder-Decoder 注意力
Padding mask
1. 用于忽略填充位置，确保它们不影响注意力权重和损失计算
2. 设置为负无穷的score使得softmax的概率为0

http://www.kler.cn/a/511464.html

相关文章：

使用 Box2D 库开发愤怒的小鸟游戏

如何控制爬虫的速度来避免被屏蔽

Spring 框架中的数据转换和格式化：使用 Converter 和 Formatter 进行数据处理

Redis实战-初识Redis

AF3 PairStack类源码解读

【深度学习】L1损失、L2损失、L1正则化、L2正则化

opencv_KDTree_搜索介绍及示例

docker访问权限问题

使用Python和FFmpeg批量转换视频为GIF

49.向配置文件写入 C#例子

Windows截获系统鼠标消息转发到指定窗口

Unity 热更新对象绑定的替代方案--StrangeIoC 注入方式

计算机毕业设计Python+卷积神经网络租房推荐系统租房大屏可视化租房爬虫 hadoop spark 58同城租房爬虫房源推荐系统

3D线上会议：打破空间限制，重塑会议未来

管理口令安全和资源（二）

CSS笔记基础篇01——选择器、文字控制属性、背景属性、显示模式、盒子模型

HTTP/2 与 HTTP/3 的新特性

Matlab总提示内存不够用，明明小于电脑内存

DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition 中的空洞自注意力机制

ACL基础理论