当前位置: 首页 > article >正文

3、论文阅读:EnYOLO:一种基于图像增强的水下目标区域自适应实时检测框架

图像增强和目标检测的结合

  • 前言
  • 介绍
  • 相关工作
    • UIE 水下图像增强
    • UOD 水下目标检测
    • UDA 水下域自适应
  • 方法介绍
    • 训练过程
    • 推理过程
    • 网络概述
    • 多阶段训练策略
      • Burn-In Stage(预热阶段)
      • Mutual-Learning Stage(相互学习阶段)
      • Domain-Adaptation Stage(领域适应阶段)
    • 多阶段训练策略算法介绍
    • 损失设计
      • Burn-In Stage
      • Mutual-Learning Stage
      • Domain-Adaptation Stage
  • 实验
    • 实验的细节
      • 数据集
      • 训练设置
    • 水下图像增强实验
    • 水下目标检测实验
  • 结论
  • 代码

前言

UIE:水下图像增强
UOD:水下目标检测
AUVS:自主水下航行器
水下图像增强在水下目标检测任务方面应用不多,具体有一下原因:
(1)使用UIE作为预处理步骤,引入了很大的计算量
(2)在目标检测之前进行图像增强未必能够产生性能改进
(3)复杂的水下环境导致不同场景下的域偏移,严重影响UOD性能
为了解决这些挑战,我们引入了EnYOLO,这是一种集成的实时框架,设计用于同时进行UIE和UOD,并具有域适应能力。具体地说,UIE和UOD任务头共享相同的网络主干,并利用轻量级设计。
此外,我们提出一种新颖的领域适应性策略,以对齐来自不同水下环境的特征嵌入

介绍

复杂的水下环境导致水下图像的质量很差,因此,用UIE方法获取清晰的水下图像通常被认为是与视觉相关的水下任务的必要前提。为此,引入了EnYOLO:基于领域自适应的实时UIE和UOD集成框架。UIE和UOD任务负责人都利用相同的网络主干,并采用轻量级架构。此外,我们引入了一种多阶段的训练方法,以保持训练这两个任务的平衡,其总体目标是不断提高其性能。另外,我们还提出一种新的领域自适应方法来减轻水下各种环境的域差距

相关工作

UIE 水下图像增强

传统的方法通过在一定的先验假设下估计后向散射和透射,可以得到清晰的图像,它们的功效在复杂的现实世界场景中可能会下降。
相比之下,基于学习的方法直接获得从退化的水下图像到其清晰对应物的映射,在复杂情况下表现出更好的适应性。

UOD 水下目标检测

通常在水下目标检测之前先进行水下图像增强,但是会引入大量的计算,同时,增强图像中潜在伪影的存在也会导致某些环境中检测性能的下降、

UDA 水下域自适应

通过减轻不同领域之间的特征分布变化,领域自适应技术已经在各种各样的任务中进行了研究。在水下视觉任务的背景下,UIE主要讨论了领域自适应。目前的技术主要局限于UIE领域,对UOD领域适应性的探索有限。本研究中,我们提出了一种简单而有效的领域调适策略,以利用UIE所衍生的增强型特征嵌入。

方法介绍

我们提出的框架旨在同时有效地启用UIE和UOD。
我们使用成对的合成水下数据集Dps={(xs, ˆxs)i, i ∈ [1, ns]}来促进UIE任务的训练。ns表示数据集的大小。xs表示退化的合成水下图像,而 ˆxs是对应的清晰图像
对于UOD任务的训练,我们利用带标签的真实世界水下数据集Dlr ={(xr, br, cr)i, i ∈ [1, nr]};;其中nr表示真实世界数据集大小,xr表示真实世界水下图像,br表示边界框注释,cr是类标签。此外,Dlr中的真实水下图像即xr还构成了不成对的真实水下数据集Dur = {(xr)i,i ∈ [1,nr]},以增强UIE模块在真实世界场景中的性能。此外,UIE针对每个xr的增强结果ˆxr,连同他们对应的br和cr,用公式表示标记的增强现实世界数据集Dle = {( ˜xr, br, cr)i, i ∈ [1, nr]},也用于训练UOD任务。
在推理过程中,网络获取真实水下图像xr,并随后预测增强的图像ˆxr和检测结果(˜br, ˜cr)<


http://www.kler.cn/news/315845.html

相关文章:

  • 【Unity设计模式】Unity MVC/MVP架构介绍,及MVC/MVP框架的简单应用
  • Linux —— 网络基础(一)
  • 设计模式中工厂模式的C语言实现
  • python是什么语言写的
  • 一个基于Java SSM框架(Spring、SpringMVC、MyBatis)的沙县小吃点餐系统
  • 基于微信小程序的智慧物业管理系统
  • Codeforces Round 974 (Div. 3)
  • VSCode引用Eigen库无法识别问题解决
  • LEAN 赋型唯一性(Unique Typing)之 Church-Rosser 定理 (Church-Rosser Theorem)及 赋型唯一性的证明
  • 交换机中的信号线需要差分布置吗?
  • 深度学习自编码器 - 随机编码器和解码器篇
  • Kotlin while 和 for 循环(九)
  • CQRS模型解析
  • 计算机信息系统安全保护等级
  • What is new in .NET 8 and C#12
  • oracle 事务的管理
  • 3.《DevOps》系列K8S部署CICD流水线之部署MetalLB负载均衡器和Helm部署Ingress-Nginx
  • [MySQL]数据库修复(Example:1146 Error )
  • 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-17
  • 【有啥问啥】深度剖析:大模型AI时代下的推理路径创新应用方法论
  • 【Lua坑】Lua协程coroutine无法正常完整执行问题
  • 云盘视频保护神器,支持云盘视频加密与在线播放,配合alist使用,超完美!
  • react + antDesignPro 企业微信扫码登录
  • MySQL缓冲池详解
  • react router v6
  • LLaMA-Factory 使用 alpaca 格式的数据集
  • 【Delphi】通过 LiveBindings Designer 链接控件示例
  • Java笔试面试题AI答之设计模式(5)
  • affine: python仿射变换包
  • 【题解】—— LeetCode一周小结38