当前位置：首页 > article >正文

图文检索（27）：Generalising Fine-Grained Sketch-Based Image Retrieval

article 2025/3/11 15:44:29

Generalising Fine-Grained Sketch-Based Image Retrieval

摘要
3 方法
- 3.1 通用视觉特征嵌入
- 3.2 FGSBIR的动态参数化
结论

发布时间（2019 cvpr）

标题：推广基于细粒度草图的图像检索

摘要

传统：联合嵌入空间，比较 sketch 和图片
细粒度需要 instance-level pairing within each coarse-grained category as annotated training data
缺点：类别内部使用的嵌入空间，不能推广到不同类别

本文：无监督学习进行类别泛化
用于对原型视觉草图特征的通用流形进行建模。然后可以使用该流形来参数化草图/照片表示的学习。
然后，通过将新草图嵌入流形并相应地更新表示和检索函数，模型对新类别的适应变得自动。

3 方法

overview
两个网络：
无监督嵌入：编码器-解码器框架（s 映射到 K 个唯一视觉特征描述符 Ds 之一）
矩阵 D ∈ K×M
动态参数化CNN 特征提取器：找到照片 p 与查询草图 s 的距离最小化
总结
无监督嵌入网络以无监督的方式在训练草图类别上进行训练
动态参数化的 FG-SBIR 模型以监督方式在训练草图类别上进行训练

3.1 通用视觉特征嵌入

descriptor dictionary：K 个元素，每个元素 M 维

编码器-解码器
1）编码得到特征
2）选择最大概率的描述符字典元素
3）解码得到特征

实际考虑
描述符元素数量：300个
sketch 数量：1万多
修改解码的输入
1）原来解码输入：单纯的描述符元素
2）新的解码输入：描述符元素 + 原始输入的部分特征

优化
1）argmax 不可微分，需要蒙特卡洛估计和 REINFORCE 算法（问题是高方差）
2）本文采用低方差梯度技巧（参数更新更稳定）

Gumbel-softmax 硬分配
1）Gumbel-Softmax 重参数化技巧
2）直通式（ST）梯度估计器

熵约束软分配

总结

3.2 FGSBIR的动态参数化

结论

我们首次发现了跨类别 FG-SBIR 中的泛化问题，并通过学习通用视觉特征描述符嵌入提出了一种新颖的解决方案。此嵌入字典被映射到一组跨草图类别的潜在域，并使得检索网络能够根据查询草图进行适当参数化——通过将查询草图映射到字典中的相应描述符。在 Sketchy 和 QMUL-Shoe-V2 上进行的大量实验证明了我们提出的方法对于跨类别 FG-SBIR 的优越性。

查看全文

http://www.kler.cn/a/408168.html