当前位置: 首页 > article >正文

Nexa AI发布OmniAudio-2.6B:一款快速的音频语言模型,专为边缘部署设计

音频语言模型(Audio Language Models,简称ALMs)在众多领域扮演着核心角色,涵盖从即时转录与翻译到语音控制界面和辅助技术等应用。然而,现有的解决方案常遭遇如高延迟、计算资源消耗巨大以及对云基础设施的依赖等挑战。这些限制在边缘计算部署中尤为突出,因为在那里,低功耗、低延迟和本地化处理显得尤为重要。在资源受限或对隐私保护有严格要求的环境中,这些挑战使得大规模、集中式的模型变得不太适用。因此,克服这些限制对于充分发挥ALMs在边缘场景中的潜力至关重要。

Nexa AI宣布推出了OmniAudio-2.6B,这是一款专为边缘部署设计的音频语言模型。与传统的将自动语音识别(Automatic Speech Recognition,简称ASR)和语言模型分开处理的架构不同,OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo和一个定制的投影仪集成在一个统一的框架之中。这种设计消除了将多个组件串联时的效率低下和延迟问题,特别适合计算资源受限的设备。

OmniAudio-2.6B旨在为边缘应用提供一种既实用又高效的解决方案。Nexa AI通过专注于边缘环境的特定需求,提供了一个在性能和资源限制之间取得平衡的模型,展现了其致力于推动人工智能普及化的决心。

图片

上图为其模型架构,OmniAudio-2.6B的架构整合了三个组件:Gemma-2-2b、Whisper Turbo以及一个定制的投影模块。设计时利用了语言模型嵌入空间的稀疏性。投影模块将Whisper的音频标记映射成与Gemma文本嵌入维度对齐的序列,这才使得有效的音频-文本融合成为可能,同时保持了语言模型的原始性能。

技术细节和优势

OmniAudio-2.6B的架构经过优化,以提高速度和效率。Gemma-2-2b(一个精炼的大型语言模型)和Whisper Turbo(一个强大的ASR系统)的集成,确保了一个无缝且高效的音频处理流程。定制的投影仪连接这些组件,减少了延迟并提高了操作效率。关键性能亮点包括:

  • 处理速度: 在2024款Mac Mini M4 Pro上,OmniAudio-2.6B在使用Nexa SDK的情况下,以FP16 GGUF格式达到每秒35.23个token的处理速度,以Q4_K_M GGUF格式达到每秒66个token的处理速度。相比之下,Qwen2-Audio-7B这一著名替代品在类似硬件上仅能处理每秒6.38个token。这一差异代表了速度上的显著提升。

  • 资源效率: 该模型的紧凑设计最小化了对云资源的依赖,使其成为可穿戴设备、汽车系统和物联网设备等应用的理想选择,这些设备在电力和带宽方面有限。

  • 准确性和灵活性: 尽管OmniAudio-2.6B专注于速度和效率,但它提供了高准确性,使其能够灵活应对转录、翻译和摘要等任务。

这些进步使得OmniAudio-2.6B成为开发者和企业寻求响应迅速、注重隐私的边缘音频处理解决方案的实用选择。

性能洞察

基准测试强调了OmniAudio-2.6B的卓越性能。在2024款Mac Mini M4 Pro上,该模型每秒处理多达66个token,显著超过了Qwen2-Audio-7B的每秒6.38个token。这一速度提升扩展了实时音频应用的可能性。

例如,OmniAudio-2.6B可以通过实现更快的、无需依赖云的设备上响应来增强虚拟助手。在医疗保健等实时转录和翻译至关重要的行业中,该模型的速度和准确性可以提高结果和效率。其边缘友好的设计进一步增强了其在需要本地处理的场景中的吸引力。

其已经在huggingface上发布。 https://huggingface.co/NexaAIDev/OmniAudio-2.6B

图片

 

结论

OmniAudio-2.6B代表了音频语言建模的一个重要进步,解决了延迟、资源消耗和云依赖等关键挑战。通过将先进组件集成到一个统一框架中,Nexa AI开发了一个在速度、效率和准确性方面为边缘环境平衡的模型。

性能指标显示,与现有解决方案相比,OmniAudio-2.6B提供了高达10.3倍的提升,为各种边缘应用提供了一个强大、可扩展的选项。这一模型反映了对实用、本地化AI解决方案的日益重视,为满足现代应用需求的音频语言处理的进步铺平了道路。


http://www.kler.cn/a/450959.html

相关文章:

  • 【JavaEE】Spring Boot 项目创建
  • 专栏二十三:Python读取和分析空间数据的经验杂谈
  • 活着就好20241225
  • 使用GPT进行SCI论文润色常用语句
  • 完整微服务设计 功能实现
  • SQL 实战:窗口函数的妙用 – 分析排名与分组聚合
  • 【记录——解除网课自动暂停】的“魔法“
  • IntelliJ IDEA中设置激活的profile
  • Centos下的OpenSSH服务器和客户端
  • 【算法篇】——数据结构中常见八大排序算法的过程原理详解
  • 深入解析 Apache APISIX
  • 14-zookeeper环境搭建
  • 解决前端笔记本电脑屏幕显示缩放比例125%、150%对页面大小的影响问题--数据可视化大屏
  • C语言项目 天天酷跑(上篇)
  • day53 第十一章:图论part04
  • Ruby Raider使用教程
  • 基于小程序宿舍报修系统的设计与实现ssm+论文源码调试讲解
  • C++ —— 模板类具体化
  • 图像处理-Ch2-空间域的图像增强
  • nmap端口扫描
  • Windows安装使用 Git Bash教程
  • 模型的多GPU并行训练,DDP
  • 前端对页面数据进行缓存
  • SQL 实战:窗口函数的妙用 – 分析排名与分组聚合
  • 07-01-指针与数组
  • OneCode:开启高效编程新时代——企业定制出码手册