当前位置：首页 > article >正文

Nexa AI发布OmniAudio-2.6B：一款快速的音频语言模型，专为边缘部署设计

article 2025/2/28 20:19:17

音频语言模型（Audio Language Models，简称ALMs）在众多领域扮演着核心角色，涵盖从即时转录与翻译到语音控制界面和辅助技术等应用。然而，现有的解决方案常遭遇如高延迟、计算资源消耗巨大以及对云基础设施的依赖等挑战。这些限制在边缘计算部署中尤为突出，因为在那里，低功耗、低延迟和本地化处理显得尤为重要。在资源受限或对隐私保护有严格要求的环境中，这些挑战使得大规模、集中式的模型变得不太适用。因此，克服这些限制对于充分发挥ALMs在边缘场景中的潜力至关重要。

Nexa AI宣布推出了OmniAudio-2.6B，这是一款专为边缘部署设计的音频语言模型。与传统的将自动语音识别（Automatic Speech Recognition，简称ASR）和语言模型分开处理的架构不同，OmniAudio-2.6B将Gemma-2-2b、Whisper Turbo和一个定制的投影仪集成在一个统一的框架之中。这种设计消除了将多个组件串联时的效率低下和延迟问题，特别适合计算资源受限的设备。

OmniAudio-2.6B旨在为边缘应用提供一种既实用又高效的解决方案。Nexa AI通过专注于边缘环境的特定需求，提供了一个在性能和资源限制之间取得平衡的模型，展现了其致力于推动人工智能普及化的决心。

上图为其模型架构，OmniAudio-2.6B的架构整合了三个组件：Gemma-2-2b、Whisper Turbo以及一个定制的投影模块。设计时利用了语言模型嵌入空间的稀疏性。投影模块将Whisper的音频标记映射成与Gemma文本嵌入维度对齐的序列，这才使得有效的音频-文本融合成为可能，同时保持了语言模型的原始性能。

技术细节和优势

OmniAudio-2.6B的架构经过优化，以提高速度和效率。Gemma-2-2b（一个精炼的大型语言模型）和Whisper Turbo（一个强大的ASR系统）的集成，确保了一个无缝且高效的音频处理流程。定制的投影仪连接这些组件，减少了延迟并提高了操作效率。关键性能亮点包括：

处理速度： 在2024款Mac Mini M4 Pro上，OmniAudio-2.6B在使用Nexa SDK的情况下，以FP16 GGUF格式达到每秒35.23个token的处理速度，以Q4_K_M GGUF格式达到每秒66个token的处理速度。相比之下，Qwen2-Audio-7B这一著名替代品在类似硬件上仅能处理每秒6.38个token。这一差异代表了速度上的显著提升。
资源效率： 该模型的紧凑设计最小化了对云资源的依赖，使其成为可穿戴设备、汽车系统和物联网设备等应用的理想选择，这些设备在电力和带宽方面有限。
准确性和灵活性： 尽管OmniAudio-2.6B专注于速度和效率，但它提供了高准确性，使其能够灵活应对转录、翻译和摘要等任务。

这些进步使得OmniAudio-2.6B成为开发者和企业寻求响应迅速、注重隐私的边缘音频处理解决方案的实用选择。