当前位置：首页 > article >正文

7、关于LoFTR

article 2025/2/22 5:22:18

7、关于LoFTR

LoFTR论文链接：LoFTR

LoFTR的提出，是将Transformer模型的注意力机制在特征匹配方向的应用，Transformer的提取特征的机制，在自身进行，本文提出可以的两张图像之间进行特征计算，非常适合进行特征匹配。

一、传统匹配模式的局限

首先找到一些关键点(图像梯度较高，角点检测等)，然后计算特征相似度来匹配，这种方法很依赖检测到的特征点，一旦点找不到，那就不用说匹配了

在这里插入图片描述

对于位置不同的两个点，如果它们的背景特征相似(与位置无关了)，也无法匹配，两者差别不大的，就无法区分了

在这里插入图片描述

二、LoFTR解决方案

不需要先得到特征点，第一个问题就得到了解决
采用end2end（给一个输入，得到结果）方法，使用非常方便

在这里插入图片描述

三、模型架构图

模型进行特征匹配主要分为四步：

Local Feature CNN，就是一个blockbone，对两张图特征图进行卷积，分别得到原来特征图大小的1/8（用来进行粗粒度的匹配）和1/2（用来进行细粒度的匹配）大小特征图。
Coarse-Level Local Feature Transformer,是对两张1/8的特征图（FA，FB）进行多个串联的self-attention（自己的q和k向量做内积）和cross-attention（FA提供q，FB提供V做内积）来计算自己每个区域内之间的关系和两张图不同区域内的关系。
Matching Module，到目前位置都是进行粗粒度匹配，经过了多层的Coarse-Level Local Feature Transformer，FA，FB已经了解了自身的关系，同时也知道了和对方之间的关系，要进行关系的匹配了，采用互近邻(mutual nearest neighbor (MNN))的方式匹配，简单来说，假设FA对某个点信息概率值大，但是同时也要某个点对A的概率值也大，必须双向的，源码阈值设置为0.2，也就是互相的结果都大于0.2才能匹配成功，筛选得到符合阈值点传入下一层。
Coarse-to-Fine Module，在经过粗粒度匹配之后，会得到一些候选点区域，这些候选点区域会传到细粒度，细粒度其实就是在匹配的小区域上再做一次Coarse-Level Local Feature Transformer，同样会互相了解对方的特征，但是这里不是采用MNN机制，假设FA的小区域中的某个点有FB对应小区域中的所有点匹配的概率值，才将这写概率值绘制成类似于热力图，再对整个图计算期望值，得到最终的匹配点坐标。

在这里插入图片描述

核心代码

class LoFTR(nn.Module):、
	# ... 省略初始化代码
    def forward(self, data):
        """ 
        前向传播函数：
        参数：
            data (dict): 包含图像和可选掩码的字典
                'image0': (torch.Tensor): (N, 1, H, W) 第一张图像
                'image1': (torch.Tensor): (N, 1, H, W) 第二张图像
                'mask0' (可选): (torch.Tensor): (N, H, W) 第一张图像的掩码，'0' 表示填充位置
                'mask1' (可选): (torch.Tensor): (N, H, W) 第二张图像的掩码
        """
        # 更新数据字典，添加批次大小和图像尺寸
        data.update({
            'bs': data['image0'].size(0),  # 批次大小
            'hw0_i': data['image0'].shape[2:],  # 第一张图像的高度和宽度
            'hw1_i': data['image1'].shape[2:]   # 第二张图像的高度和宽度
        })

        # 如果两张图像的尺寸相同，进行联合处理
        if data['hw0_i'] == data['hw1_i']:
            print("Concatenated Images Shape:", torch.cat([data['image0'], data['image1']], dim=0).shape) # ([2, 1, 480, 640])
            feats_c, feats_f = self.backbone(torch.cat([data['image0'], data['image1']], dim=0))
            print("Feature Coarse Shape:", feats_c.shape) # 1/8  ([2, 256, 60, 80])
            print("Feature Fine Shape:", feats_f.shape) # 1/2  ([2, 128, 240, 320])
            # 分离两张图像的特征
            (feat_c0, feat_c1), (feat_f0, feat_f1) = feats_c.split(data['bs']), feats_f.split(data['bs'])
            print("Feature Coarse Image 0 Shape:", feat_c0.shape) # ([1, 256, 60, 80])
            print("Feature Coarse Image 1 Shape:", feat_c1.shape) # ([1, 256, 60, 80])
            print("Feature Fine Image 0 Shape:", feat_f0.shape) # ([1, 128, 240, 320])
            print("Feature Fine Image 1 Shape:", feat_f1.shape) # ([1, 128, 240, 320])
        else:
            # 处理不同尺寸的图像
            (feat_c0, feat_f0), (feat_c1, feat_f1) = self.backbone(data['image0']), self.backbone(data['image1'])
            print("Feature Coarse Image 0 Shape:", feat_c0.shape)
            print("Feature Coarse Image 1 Shape:", feat_c1.shape)
            print("Feature Fine Image 0 Shape:", feat_f0.shape)
            print("Feature Fine Image 1 Shape:", feat_f1.shape)

        # 更新数据字典，添加特征图的尺寸
        data.update({
            'hw0_c': feat_c0.shape[2:],  # 第一张图像粗特征的高度和宽度
            'hw1_c': feat_c1.shape[2:],  # 第二张图像粗特征的高度和宽度
            'hw0_f': feat_f0.shape[2:],  # 第一张图像细特征的高度和宽度
            'hw1_f': feat_f1.shape[2:]   # 第二张图像细特征的高度和宽度
        })

        # 2. 粗级别局部变换模块
        # 添加位置编码信息
        feat_c0 = rearrange(self.pos_encoding(feat_c0), 'n c h w -> n (h w) c')
        print("Encoded Coarse Feature Image 0 Shape:", feat_c0.shape) # ([1, 4800, 256]) # 总共4800个点，每个点事256维向量
        feat_c1 = rearrange(self.pos_encoding(feat_c1), 'n c h w -> n (h w) c')
        print("Encoded Coarse Feature Image 1 Shape:", feat_c1.shape) # ([1, 4800, 256])
        mask_c0 = mask_c1 = None  # 掩码在训练中有用
        if 'mask0' in data:
            mask_c0, mask_c1 = data['mask0'].flatten(-2), data['mask1'].flatten(-2)
        # 进行粗级别局部变换
        feat_c0, feat_c1 = self.loftr_coarse(feat_c0, feat_c1, mask_c0, mask_c1) 
        print("Transformed Coarse Feature Image 0 Shape:", feat_c0.shape) # ([1, 4800, 256]) # 计算后输出结果不变
        print("Transformed Coarse Feature Image 1 Shape:", feat_c1.shape) # ([1, 4800, 256]) # 计算后输出结果不变

        # 3. 粗级别匹配
        self.coarse_matching(feat_c0, feat_c1, data, mask_c0=mask_c0, mask_c1=mask_c1) 

        # 4. 细级别细化
        feat_f0_unfold, feat_f1_unfold = self.fine_preprocess(feat_f0, feat_f1, feat_c0, feat_c1, data)
        if feat_f0_unfold.size(0) != 0:  # 至少有一个粗级别预测
            feat_f0_unfold, feat_f1_unfold = self.loftr_fine(feat_f0_unfold, feat_f1_unfold)

        # 5. 细级别匹配
        self.fine_matching(feat_f0_unfold, feat_f1_unfold, data)

        return x

Local Feature CNN

Local Feature CNN，就是一个blockbone，对两张图特征图进行卷积，分别得到原来特征图大小的1/8（用来进行粗粒度的匹配）和1/2（用来进行细粒度的匹配）大小特征图。

# 来源 feats_c, feats_f = self.backbone(torch.cat([data['image0'], data['image1']], dim=0))
def build_backbone(config):
    if config['backbone_type'] == 'ResNetFPN':
        if config['resolution'] == (8, 2):
            return  ResNetFPN_8_2(config['resnetfpn'])
        # ...
class ResNetFPN_8_2(nn.Module):
    """
    ResNet+FPN, output resolution are 1/8 and 1/2.
    Each block has 2 layers.
    """
	# 使用ResNet+FPN获得特征图1/8 和 1/2
    # 关于FPN，FPN（Feature Pyramid Networks）是一种用于目标检测和分割任务的神经网络架构，
    # 特别适用于处理多尺度的图像特征。它通过建立特征金字塔来捕捉不同尺度的图像信息，增强了模型对不同尺度目标的检测能力。
    def __init__(self, config):
     	# ... 具体代码太长不展示

Coarse-Level Local Transformer

Coarse-Level Local Feature Transformer,是对两张1/8的特征图（FA，FB）进行多个串联的self-attention（自己的q和k向量做内积）和cross-attention（FA提供q，FB提供V做内积）来计算自己每个区域内之间的关系和两张图不同区域内的关系。

# 来源核心代码中  feat_c0, feat_c1 = self.loftr_coarse(feat_c0, feat_c1, mask_c0, mask_c1)
class LocalFeatureTransformer(nn.Module):
    def forward(self, feat0, feat1, mask0=None, mask1=None):
    """
    前向传播函数：
    参数：
        feat0 (torch.Tensor): 特征图 0，形状为 [N, L, C]
        feat1 (torch.Tensor): 特征图 1，形状为 [N, S, C]
        mask0 (torch.Tensor): 特征图 0 的掩码，形状为 [N, L]（可选）
        mask1 (torch.Tensor): 特征图 1 的掩码，形状为 [N, S]（可选）
    """
    
    # 确保特征图的通道数与 transformer 的模型维度一致
    assert self.d_model == feat0.size(2), "the feature number of src and transformer must be equal"
    
    # 迭代处理每一层，根据名称决定操作，总共4个self-cross，两个额为一组
    for layer, name in zip(self.layers, self.layer_names):  # ['self', 'cross', 'self', 'cross', 'self', 'cross', 'self', 'cross']
        if name == 'self':
            # 自注意力机制：feat0 本身计算 q 和 k
            feat0 = layer(feat0, feat0, mask0, mask0)
            print("Self Attention Output feat0 Shape:", feat0.shape) # ([1, 4800, 256])
            # 自注意力机制：feat1 本身计算 q 和 k
            feat1 = layer(feat1, feat1, mask1, mask1)
            print("Self Attention Output feat1 Shape:", feat1.shape) # ([1, 4800, 256])
        elif name == 'cross':
            # 交叉注意力机制：feat0 提供 q，feat1 提供 k 和 v
            feat0 = layer(feat0, feat1, mask0, mask1)
            print("Cross Attention Output feat0 Shape:", feat0.shape) # ([1, 4800, 256])
            # 交叉注意力机制：feat1 提供 q，feat0 提供 k 和 v
            feat1 = layer(feat1, feat0, mask1, mask0)
            print("Cross Attention Output feat1 Shape:", feat1.shape) # ([1, 4800, 256])
        else:
            raise KeyError("Unknown layer type")
    
    print("Final feat0 Shape:", feat0.shape) # ([1, 4800, 256]) 计算后向量维度是不变的
    print("Final feat1 Shape:", feat1.shape) # ([1, 4800, 256])
    
    return feat0, feat1

Matching Module

Matching Module，到目前位置都是进行粗粒度匹配，经过了多层的Coarse-Level Local Feature Transformer，FA，FB已经了解了自身的关系，同时也知道了和对方之间的关系，要进行关系的匹配了，采用互近邻(mutual nearest neighbor (MNN))的方式匹配，简单来说，假设FA对某个点信息概率值大，但是同时也要某个点对A的概率值也大，必须双向的，源码阈值设置为0.2，也就是互相的结果都大于0.2才能匹配成功，筛选得到符合阈值点传入下一层。

# 来源核心代码中  self.coarse_matching(feat_c0, feat_c1, data, mask_c0=mask_c0, mask_c1=mask_c1) 
class CoarseMatching(nn.Module):
    def forward(self, feat_c0, feat_c1, data, mask_c0=None, mask_c1=None):
    """
    前向传播函数：
    
    参数：
        feat_c0 (torch.Tensor): 特征图 0，形状为 [N, L, C]
        feat_c1 (torch.Tensor): 特征图 1，形状为 [N, S, C]
        data (dict): 额外数据字典
        mask_c0 (torch.Tensor): 特征图 0 的掩码，形状为 [N, L]（可选）
        mask_c1 (torch.Tensor): 特征图 1 的掩码，形状为 [N, S]（可选）
    """
    
    # 提取批次大小、特征图 0 的长度、特征图 1 的长度和特征图的通道数
    N, L, S, C = feat_c0.size(0), feat_c0.size(1), feat_c1.size(1), feat_c0.size(2)
    print(feat_c0.shape) # ([1, 4800, 256])
    # 对特征图进行归一化
    feat_c0, feat_c1 = map(lambda feat: feat / feat.shape[-1]**.5, [feat_c0, feat_c1])

    if self.match_type == 'dual_softmax':
        # 计算相似度矩阵
        sim_matrix = torch.einsum("nlc,nsc->nls", feat_c0, feat_c1) / self.temperature
        print("Similarity Matrix Shape:", sim_matrix.shape) # ([1, 4800, 4800]) ,feat_c0中的4800和feat_c1进行计算得到([1, 4800, 4800])
        
        if mask_c0 is not None:
            # 应用掩码，将不需要的位置填充为负无穷大
            sim_matrix.masked_fill_(
                ~(mask_c0[..., None] * mask_c1[:, None]).bool(),
                -float('inf')
            )
        
        # 计算置信度矩阵
        conf_matrix = F.softmax(sim_matrix, 1) * F.softmax(sim_matrix, 2)
        print("Confidence Matrix Shape:", conf_matrix.shape) # ([1, 4800, 4800])
        
    # ... 省略部分没走的代码
    
    # 更新数据字典
    data.update({'conf_matrix': conf_matrix})
    
    # 从置信度矩阵中预测粗略匹配
    data.update(**self.get_coarse_match(conf_matrix, data))

再进行下一步细粒度匹配之前，需要将粗粒度匹配出来结果和1/2特征图大小，进行处理，找出所有待细粒度处理的各个区域

# 来源核心代码中  feat_f0_unfold, feat_f1_unfold = self.fine_preprocess(feat_f0, feat_f1, feat_c0, feat_c1, data)
class FinePreprocess(nn.Module):
    def forward(self, feat_f0, feat_f1, feat_c0, feat_c1, data):
    """
    前向传播函数：

    参数：
        feat_f0 (torch.Tensor): 特征图 0，形状为 [N, C, H, W]
        feat_f1 (torch.Tensor): 特征图 1，形状为 [N, C, H, W]
        feat_c0 (torch.Tensor): 粗级特征图 0，形状为 [N, L, C]
        feat_c1 (torch.Tensor): 粗级特征图 1，形状为 [N, L, C]
        data (dict): 包含额外信息的数据字典

    更新：
        data (dict): 更新数据字典，包括：
            'W' (int): 窗口大小
    """
    
    # 获取窗口大小和步幅
    W = self.W
    stride = data['hw0_f'][0] // data['hw0_c'][0]

    # 更新数据字典
    data.update({'W': W})

    # 如果没有有效的批次 ID，返回空张量
    if data['b_ids'].shape[0] == 0:
        feat0 = torch.empty(0, self.W**2, self.d_model_f, device=feat_f0.device)
        feat1 = torch.empty(0, self.W**2, self.d_model_f, device=feat_f0.device)
        return feat0, feat1

    # 1. 展开所有局部窗口
    # 使用 unfold 函数提取特征图中的局部窗口
    feat_f0_unfold = F.unfold(feat_f0, kernel_size=(W, W), stride=stride, padding=W//2)
    feat_f0_unfold = rearrange(feat_f0_unfold, 'n (c ww) l -> n l ww c', ww=W**2)
    
    feat_f1_unfold = F.unfold(feat_f1, kernel_size=(W, W), stride=stride, padding=W//2)
    feat_f1_unfold = rearrange(feat_f1_unfold, 'n (c ww) l -> n l ww c', ww=W**2)

    # 2. 仅选择预测的匹配
    # 根据数据中的批次 ID 和点 ID 选择特定的匹配特征
    feat_f0_unfold = feat_f0_unfold[data['b_ids'], data['i_ids']]  # [n, ww, cf]
    feat_f1_unfold = feat_f1_unfold[data['b_ids'], data['j_ids']]  # [n, ww, cf]

    # 选项：使用粗级别的 Loftr 特征作为上下文信息：连接和线性变换
    if self.cat_c_feat:
        # 从粗级别特征中选择窗口，并进行线性变换
        feat_c_win = self.down_proj(torch.cat([
            feat_c0[data['b_ids'], data['i_ids']],
            feat_c1[data['b_ids'], data['j_ids']]
        ], 0))  # [2n, c]
        
        # 合并特征图
        feat_cf_win = self.merge_feat(torch.cat([
            torch.cat([feat_f0_unfold, feat_f1_unfold], 0),  # [2n, ww, cf]
            repeat(feat_c_win, 'n c -> n ww c', ww=W**2),  # [2n, ww, cf]
        ], -1))
        
        # 将合并后的特征图分为两部分
        feat_f0_unfold, feat_f1_unfold = torch.chunk(feat_cf_win, 2, dim=0)
    
    return feat_f0_unfold, feat_f1_unfold

Coarse-to-Fine Module

Coarse-to-Fine Module，在经过粗粒度匹配之后，会得到一些候选点区域，这些候选点区域会传到细粒度，细粒度其实就是在匹配的小区域上再做一次Coarse-Level Local Feature Transformer，同样会互相了解对方的特征，但是这里不是采用MNN机制，假设FA的小区域中的某个点有FB对应小区域中的所有点匹配的概率值，才将这写概率值绘制成类似于热力图，再对整个图计算期望值，得到最终的匹配点坐标。

# 来源核心代码中 self.fine_matching(feat_f0_unfold, feat_f1_unfold, data)
class FineMatching(nn.Module):
    def forward(self, feat_f0, feat_f1, data):
    """
    前向传播函数：

    参数：
        feat_f0 (torch.Tensor): 特征图 0，形状为 [M, WW, C]，其中 M 是匹配的数量，WW 是窗口大小的平方，C 是通道数
        feat_f1 (torch.Tensor): 特征图 1，形状为 [M, WW, C]
        data (dict): 包含额外信息的数据字典
    """
    M, WW, C = feat_f0.shape  # 提取特征图的形状信息
    W = int(math.sqrt(WW))  # 计算窗口的边长
    scale = data['hw0_i'][0] / data['hw0_f'][0]  # 计算缩放因子
    self.M, self.W, self.WW, self.C, self.scale = M, W, WW, C, scale

    # 特殊情况处理：如果没有找到粗级别匹配
    if M == 0:
        assert not self.training, "在训练阶段，M 应始终大于0，请检查 coarse_matching.py"
        # logger.warning('在粗级别没有找到匹配。')
        data.update({
            'expec_f': torch.empty(0, 3, device=feat_f0.device),  # 返回空的期望位置和标准差
            'mkpts0_f': data['mkpts0_c'],  # 使用粗级别的关键点作为回退
            'mkpts1_f': data['mkpts1_c'],
        })
        return

    # 选择特征图中心的特征
    feat_f0_picked = feat_f0[:, WW//2, :]
    print(feat_f0_picked.shape) # ([1541, 128]) 全部待计算的特征区域个数
    # 计算特征之间的相似度矩阵
    sim_matrix = torch.einsum('mc,mrc->mr', feat_f0_picked, feat_f1)
    print(sim_matrix.shape) # ([1541, 128]) 
    
    # 使用 softmax 函数计算热图
    softmax_temp = 1. / C**.5
    heatmap = torch.softmax(softmax_temp * sim_matrix, dim=1).view(-1, W, W)
    print(heatmap.shape) # ([1541, 5, 5]) # 1541 个 5x5的热力图矩阵

    # 从热图中计算坐标，计算期望值
    coords_normalized = dsnt.spatial_expectation2d(heatmap[None], True)[0]  # 计算归一化坐标
    print(coords_normalized.shape) #([1541, 2]) # 1541 个（x,y）坐标,都是小数，表示占图大小比例
    grid_normalized = create_meshgrid(W, W, True, heatmap.device).reshape(1, -1, 2)  # 创建网格
    print(grid_normalized.shape) #([1, 25, 2])
    # 计算标准差
    var = torch.sum(grid_normalized**2 * heatmap.view(-1, WW, 1), dim=1) - coords_normalized**2  # 计算方差
    std = torch.sum(torch.sqrt(torch.clamp(var, min=1e-10)), -1)  # 计算标准差，使用 clamp 以保证数值稳定性
    
    # 更新数据字典以用于精细级别的监督
    data.update({'expec_f': torch.cat([coords_normalized, std.unsqueeze(1)], -1)})

    # 计算绝对的关键点坐标,按图长宽比例还原位置坐标
    self.get_fine_match(coords_normalized, data)