当前位置：首页 > article >正文

UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet

article 2025/4/2 8:53:26

摘要

https://arxiv.org/abs/2311.15599
大核卷积神经网络(ConvNets)最近受到了广泛的研究关注，但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或变压器的设计原则，而大核ConvNets的架构设计仍未得到充分解决。(2)随着变压器在多种模式下的主导地位，尚待研究的是，ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。(1)我们提出了设计大核ConvNets的四个架构指导方针，其核心是利用大核和小核的本质特征-大核可以看到宽广的范围而无需深入。遵循这些指导方针，我们提出的大核ConvNet在图像识别方面表现出领先性能。例如，我们的模型在ImageNet上达到88.0%的准确率，ADE20K mIoU为55.6%，COCO box AP为56.4%，表现出比最近提出的一些强大的竞争对手更好的性能和更高的速度。(2)我们发现大核是解锁ConvNets在它们最初不擅长的领域的卓越性能的关键。采用某些与模态相关的预处理方法，即使不对架构进行特定于模态的定制，提出的模型也能在时间序列预测和音频识别任务上实现最先进的性能。代码和所有模型在https://github.com/AILabCVC/UniRepLKNet。

1、简介

使用非常大的卷积核的卷积神经网络（ConvNets）的设计范式起源于ReplkNet [11]，当时ConvNets的地位受到Vision Transformers（ViTs） [12, 38, 61, 65]的挑战。受到使用全局注意力 [12, 54, 65]或使用大窗口注意力 [38, 49, 64]的ViTs的启发，ReplkNet提出使用非常大的卷积核。与使用小卷积核（例如3×3） [19, 22,

http://www.kler.cn/a/156893.html

相关文章：

旅游消费+区块链业务场景

实战分析和精华总结：服务器端请求伪造SSRF漏洞数据劫持、复现、分析、利用及修复过程

PostgreSQL + SQL Server = WiltonDB

什么是负载均衡？

数据结构——二叉树（相关术语、性质、遍历过程)

深度学习手势检测与识别算法 - opencv python 计算机竞赛

线程变量引发的session混乱问题

MJPG-streamer方案实现物联网视频监控

亿发专业MES制造系统，现代化MES精益制造管理，建设数字化车间

正则表达式（3）：入门

Kratos快速入门

【java设计模式】——代理设计模式,两种举例说明

rar压缩包如何分卷压缩

全网最新最全的自动化测试教程：python+pytest接口自动化-请求参数格式的确定

Java的+号详解与字符串拼接的底层逻辑

二阶变系数线性微分方程

光伏设计方案中最重要的是什么？

2、Linux_远程操作

深入了解Java Duration类，对时间的精细操作

龙迅#LT6911GX是一款高性能HDMI2.1至MIPI或LVDS芯片，支持图像处理，DSC压缩和嵌入式LPDDR4 旋转功能！