当前位置: 首页 > article >正文

【声音场景分类--论文阅读】

1.基于小波时频图特征在声音场景分类

基于小波时频图特征在声音场景分类任务中的表现
在这里插入图片描述

2.增强增强高效音频分类网络

https://arxiv.org/pdf/2204.11479v5
https://github.com/Alibaba-MIIL/AudioClassfication
音频分类网络如图4所示。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。可以将网络分解为两个主块、1D卷积堆栈和变换器编码器块。前者沿时间轴进行降采样
其中卷积层耦合到固定低通滤波器[29,30],然后是间歇残差块[18]。这个残差块根据[31]进行修改,由深度卷积和大核操作组成f(x)是跨通道操作的核大小等于1的卷积。此时,信号
使用一系列因子di除以总因子d进行抽取=Qdi例如,5秒的信号下采样序列的持续时间等于[4,4,4,4],执行256倍的缩减。这可能是为了在某种程度上与频谱图操作期间进行的下采样有关。以下构建块执行进一步减少,每次减少后都有一堆扩张的残余块[32]。这种改进能够提高在每帧的感受野中,因此对环境类中的可变持续时间事件更具鲁棒性声音场景。使用变压器编码器块实现了跨帧收集特征图,该块然后是全连接层,将嵌入向量投影到类空间。
在这里插入图片描述

3.PANNs:大规模预训练音频神经网络音频模式识别

https://arxiv.org/pdf/1912.10211v5
https://github.com/qiuqiangkong/audioset_tagging_cnn
Wavegram CNN和Wavegram Logmel CNN for AudioSet标签。我们提出的Wavegram CNN是一个时域音频标签系统。Wavegram是我们提出的一个功能这类似于log-mel频谱图,但使用神经网络。波形图被设计用来学习傅里叶变换的时频表示转变。波形图具有时间轴和频率轴。频率模式对于音频模式识别很重要,例如,具有不同音高偏移的声音属于同一个班级。波形图旨在学习频率一维CNN中可能缺少的信息系统。波形图也可能比手工制作的原木更好通过学习一种新的时频来获得mel谱图从数据转换。然后,波形图可以代替log-mel光谱图作为输入特征,形成我们的WavegramCNN系统。我们还结合了Wavegram和log-mel频谱图作为构建Wavegram-LogmelCNN系统的新功能.
在这里插入图片描述


http://www.kler.cn/a/505151.html

相关文章:

  • 【AI】【RAG】使用WebUI部署RAG:数据优化与设置技巧详解
  • 网络编程 - - TCP套接字通信及编程实现
  • 16_Redis Lua脚本
  • C#,图片分层(Layer Bitmap)绘制,反色、高斯模糊及凹凸贴图等处理的高速算法与源程序
  • 深度学习中的学习率调度器(scheduler)分析并作图查看各方法差异
  • ArkTS 组件事件、状态管理与资源管理
  • 【Rust练习】28.use and pub
  • 【Qt】02-信号与槽函数
  • 全域数据资产管理平台 | SimbaFabric
  • git merge 压缩提交
  • 大模型微调|使用LoRA微调Qwen2.5-7B-Instruct完成文本分类任务
  • Unity|Tetris|俄罗斯方块复刻1(C#)
  • RK3588-NPU pytorch-image-models 模型编译测试
  • cursor重构谷粒商城01——为何要重构谷粒商城
  • 2025开年解读:AI面试 VS 传统面试本质上区别有哪些?
  • Linux网络知识——网络命名空间虚拟网卡
  • 数据结构知识点
  • Java 面试题 - ArrayList 和 LinkedList 的区别,哪个集合是线程安全的?
  • 接口自动化测试难点—数据库验证解决方案
  • HTTP 头部字段的作用
  • HarmonyOS 鸿蒙 ArkTs(5.0.1 13)实现Scroll下拉到顶刷新/上拉触底加载,Scroll滚动到顶部
  • Object类和hashcode方法
  • 链接加载与ATT汇编
  • 【DevOps】Pipeline功能语法
  • 从0到1搭建推荐系统 -- 数据驱动的算法与架构设计(带数据集)
  • 脚本练习3