音频语言模型与多模态体系结构
音频语言模型与多模态体系结构
多模态模型正在创造语言、视觉和语音等以前独立的研究领域的协同效应。这些模型使用通用架构,将每种模式视为不同的“token”,使它们能够以一种与人类认知非常相似的方式联合建模和理解世界。
可以将多模态分为两个主要领域:输入空间(感知) 和输出(动作) 。一个模型可以有多模态的输入,同时在单个模式下产生输出。在某些情况下,使用多种模式进行推理或构建感知的能力可能比响应能力更重要。目前,尽管大多数模型能够处理各种各样的输入模式,但它们的设计主要是为了生成文本输出。虽然我们的讨论主要集中在音频语言模型上,但我们所涵盖的原则也广泛适用于视觉语言模型的发展。
多模态架构
新兴的多模态架构之一涉及使用大型语言模型(LLM)checkpoint作为基础骨干,然后通过自定义模式令牌扩展以在多模态空间中学习联合表示。 由于语音和视觉是连续信号,与文本(单词或子词