图文检索(27):Generalising Fine-Grained Sketch-Based Image Retrieval
Generalising Fine-Grained Sketch-Based Image Retrieval
- 摘要
- 3 方法
- 3.1 通用视觉特征嵌入
- 3.2 FGSBIR的动态参数化
- 结论
发布时间(2019 cvpr)
标题:推广基于细粒度草图的图像检索
摘要
传统:联合嵌入空间,比较 sketch 和图片
细粒度需要 instance-level pairing within each coarse-grained category as annotated training data
缺点:类别内部使用的嵌入空间,不能推广到不同类别
本文:无监督学习进行类别泛化
用于对原型视觉草图特征的通用流形进行建模。然后可以使用该流形来参数化草图/照片表示的学习。
然后,通过将新草图嵌入流形并相应地更新表示和检索函数,模型对新类别的适应变得自动。
3 方法
overview
两个网络:
无监督嵌入:编码器-解码器框架(s 映射到 K 个唯一视觉特征描述符 Ds 之一)
矩阵 D ∈ K×M
动态参数化CNN 特征提取器:找到照片 p 与查询草图 s 的距离最小化
总结
无监督嵌入网络以无监督的方式在训练草图类别上进行训练
动态参数化的 FG-SBIR 模型以监督方式在训练草图类别上进行训练
3.1 通用视觉特征嵌入
descriptor dictionary:K 个元素,每个元素 M 维
编码器-解码器
1)编码得到特征
2)选择最大概率的描述符字典元素
3)解码得到特征
实际考虑
描述符元素数量:300个
sketch 数量:1万多
修改解码的输入
1)原来解码输入:单纯的描述符元素
2)新的解码输入:描述符元素 + 原始输入的部分特征
优化
1)argmax 不可微分,需要蒙特卡洛估计和 REINFORCE 算法(问题是高方差)
2)本文采用低方差梯度技巧(参数更新更稳定)
Gumbel-softmax 硬分配
1)Gumbel-Softmax 重参数化技巧
2)直通式(ST)梯度估计器
熵约束软分配
总结
3.2 FGSBIR的动态参数化
结论
我们首次发现了跨类别 FG-SBIR 中的泛化问题,并通过学习通用视觉特征描述符嵌入提出了一种新颖的解决方案。此嵌入字典被映射到一组跨草图类别的潜在域,并使得检索网络能够根据查询草图进行适当参数化——通过将查询草图映射到字典中的相应描述符。在 Sketchy 和 QMUL-Shoe-V2 上进行的大量实验证明了我们提出的方法对于跨类别 FG-SBIR 的优越性。