BEVFormer Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
记录论文《BEVFormer Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》阅读过程中的一些思考。
简介
BEVFormer 用可变形注意力(Deformable Attention)替代 LSS 的显式深度估计,通过空间交叉注意力和时序自注意力直接从多视角图像查询 BEV 特征,实现了隐式的 2D 到 BEV 转换。

概念
BEV 查询 / BEV Queries
BEVFormer 预定义了一组网格状的可学习参数 $Q \in \mathbb{R}^{H \times W \times C}$ 作为 BEV 查询(BEV Queries),其中 $H \times W$ 对应 BEV 平面的空间形状, $C$ 为特征维度。在 $Q$ 中空间位置 $p = (x, y)$ 处的 BEV 查询 $Q_p \in \mathbb{R}^{1 \times C}$ 对应 BEV 平面上的一个网格单元,每个网格单元对应真实世界中 $s \times s$ 米的区域( $s$ 为 BEV 分辨率参数),并负责从多视角图像中"提取"该位置的特征。
BEV 查询在 BEVFormer 的 Encoder 的多层处理中被逐层精炼:每一层先通过时序自注意力融合历史信息,再通过空间交叉注意力从当前帧的多视角图像中聚合空间特征。经过 $L$ 层编码后,得到当前时刻的 BEV 特征 $B_t$ 。
衡准
同是为了在像素空间与 BEV 空间之间建立联系,与 LSS 需要显式地预测逐像素深度分布后将特征"推"到 BEV 空间不同, BEVFormer 采用了一种主动"查询"的范式,即 BEV 查询从 BEV 空间主动去图像空间(特征)中"拉"取所需信息。这种查询驱动(query-based)的设计避免了显式深度估计带来的误差累积。
探微
Q1: BEV 查询与 DETR 的对象查询(Object Queries)有什么关系和区别?
A:
DETR的对象查询是 $N$ 个可学习向量,每个对应一个潜在目标,数量固定且与空间位置无显式绑定BEV 查询则与BEV网格的空间位置一一对应,具备明确的空间含义。可以认为BEV 查询是对象查询在密集空间特征提取场景下的推广
Q2: BEV 查询的初始值如何设置?
A:
BEV 查询被初始化为可学习参数,在第一帧(即没有历史 BEV 特征时)也能正常工作——此时时序自注意力退化为仅对当前查询自身的自注意力。随着训练进行,BEV 查询会学到一种空间先验,使得每个位置的查询"知道"该去图像的哪些区域提取特征。
Q3: BEV 查询为什么可以避免 LSS 因为显式深度估计带来的误差累积?
A:
LSS 是以“自下向上”的方式从像素空间( 2D )映射到 BEV 空间( 2D )。 LSS 在像素空间预定义一系列锚点深度,并对像素所处真实深度进行预测,然后基于该估计的深度将像素特征三维反投影(3D Back-projection)到三维空间,再通过池化“坍缩”到 BEV 空间。这一过程中有两类误差,即相机内外参误差和像素深度估计误差。
这两类误差都难以避免,无论是内外参误差还是深度估计误差都会导致像素(特征)变换到 BEV 空间时产生位移,落在不同的 pillar ,该误差会进一步传递到后续的感知任务中,且在后续层级难以修正。
BEV 查询则不然,它从 BEV 空间( 2D )出发,将预定义的三维参考点透视变换(Perspective Transformation)到像素空间( 2D )。它不依赖于显式的深度估计,而是通过注意力机制学习哪些像素与该三维参考坐标最相关,这一过程仅受相机内外参误差影响。而该误差一方面可以通过出厂标定和实时位姿计算减小,另一方面投影过程在该误差影响下产生的影响较小(像素空间上的偏移较小),且该偏差一定程度上可以被注意力机制通过动态调整采样权重吸收,避免误差累积。
这两种方法, LSS 在像素空间“构造”(提升)深度,变换到三维后再“坍缩”(池化)到二维 BEV 空间,而 BEVFormer 在二维 BEV 空间“构造”(提升)高度,从三维再“坍缩”(投影)到像素空间,就像一个逆过程。我认为本质上的区别在于,对于前视相机而言,因为像素平面与 BEV 平面有一定的夹角(接近于正交), LSS 方法中投影射线上深度的误差在 BEV 空间上的误差更容易让相应特征用于不相关的 pillar ,而 BEVFormer 中透视的误差虽然也会导致采样到错误的像素,但投影坐标的偏移以像素为单位,量级通常较小,且该偏差可以被注意力机制通过动态调整采样权重在一定程度上吸收。
可变形注意力 / Deformable Attention
可变形注意力(Deformable Attention)来源于 Deformable DETR ,是 BEVFormer 的基础算子。与标准注意力对所有空间位置计算权重不同,可变形注意力仅在参考点(reference point)附近采样少量关键点(key points),从而将注意力的复杂度从 $O(H^2W^2)$ 降低到 $O(HWK)$ ,其中 $K$ 为每个查询的采样点数。
思路
