当前位置: 首页 > article >正文

用“劫富济贫”的思想来进行特征空间的数据增强

来源:投稿 作者:TransforMe

编辑:学姐

论文地址:https://arxiv.org/abs/2008.03673
代码:未公开
发表:ECCV2020

贡献

对于没有充分表达的尾部类则需要额外的知识来补充,所以作者利用头部的类无关特征作为额外的知识来增强尾部类。

思路

虽然深度学习取得了非常好的效果,但是有一个前提条件:所有的类都需要被很好的表达。 如何量化数据的representation是一个有挑战的问题。

如图所示虽然一些方法可以调整决策边界,但是当尾部数据过少时,如何找到决策边界的正确调整方向是有挑战的。 因此,作者想通过augment的方法恢复尾部数据特征分布,并利用头部的信息实现这一过程。

例如,图3左侧只有中心红色点代表降维后的尾部数据,当数据过少时,通过简单移动决策边界无法得到最优解。 图3右侧代表数据充足时的决策边界。

两个假设

头部的类通用(类别无关信息)特征有助于恢复尾部类的数据分布。 由于在高级特征空间具有更“线性”的表示,可以提取类通用和类特定的特征,并重新混合生成新的样本。

方法

CAM(类激活图)

简述:得到一个热力图(类激活图),都是0到1之间的数值,越接近1的部分代表对识别这个类越有帮助,也就是类相关特征,反之亦然。 作者对类相关特征和类无光特征分别设定了两个阈值。

可视化特征

对于提取的类相关与无关特征可视化,可见无关特征更紧密,相关特征更具有代表性,也越容易分离。

流程

正常训练得到数据的representation和分类器。 利用第一步得到的representation训练CAM得到类别相关和无关特征,再利用得到的与尾部类最混淆类的类别无关特征和尾部数据做一个线性加权生成增强后的新尾部数据。 作者认为在特征空间加权会减少噪声和偏差。 做一个fine tuning。

可以看到在验证集上有一个不错的提升。

实验

CIFAR10、CIFAR100

ImageNet、Places

iNaturalist 2017、2018

实验结果可能没有别的论文好,不错方法确实有效。

探讨

融合层的深度

可见,还是在Block4的时候效果偏好。 作者认为在靠近输入端的特征图包含更多的空间信息,在增强样本时会引入额外的artifacts(我理解为人为噪声)。

头部和尾部的划分

实验证明头部数据占总样本的95%时效果最好。

总结

idea简单,实验完整。 挺好

关注下方《学姐带你玩AI》🚀🚀🚀

论文资料+比赛方案+面试经验all in

码字不易,欢迎大家点赞评论收藏!


http://www.kler.cn/a/7740.html

相关文章:

  • js实现一个可以自动重链的websocket客户端
  • 生成模型:变分自编码器-VAE
  • 如何配置Cursor的显示主题模式
  • 【QT】增删改查 XML 文件的类
  • FastAPI 的依赖注入与生命周期管理深度解析
  • PyCharm简单调试
  • day002-数组-有序数组的平方、长度最小的子数组、螺旋矩阵II
  • (数字图像处理MATLAB+Python)第四章图像正交变换-第二节:离散余弦变换和K-L变换
  • CTFHub | 双写后缀
  • 使用Python、Contours绘制等高线
  • 软件安全测试有哪些测试手段?软件测试报告收费贵吗?
  • 增程汽车大厂上纯电,理想能行吗?
  • 实时聊天如何改变您的在线商店
  • 【文心一言】内测版 沉浸式深度体验——不间断 提问问题!它的表现如何?
  • SOLIDWORKS三维建模的十大应用技巧
  • 【Axure高保真原型】画图画板
  • 数组按照某个key分组
  • SpringCloud-高级篇(一)
  • 2021蓝桥杯真题小平方 C语言/C++
  • 【Java版oj】day28反转部分单向链表、猴子分桃
  • nginx 逻辑判断if语句使用
  • 【二叉树OJ题(二)】前序遍历中序遍历后序遍历另一颗树的子树二叉树遍历平衡二叉树
  • 精彩回顾 | 平行云亮相LiveVideoStack2022北京站
  • 2023年一个完整的B2B订货网站源码
  • NC65 部门预算DAO类
  • ‘protoc-gen-js‘ 不是内部或外部命令,也不是可运行的程序