当前位置：首页 > article >正文

开源的GPT-4o模型使用指南，Mini-Omni2集视觉、语音和双工能力于一体的

article 2025/1/18 10:44:23

1. Mini-Omni2 是什么？

Mini-Omni2 是一个开源的多模态语言模型，旨在模拟 GPT-4o 的视觉、语音和文本处理能力。它能够理解和生成视觉、听觉和文本内容，并支持实时的语音输出和灵活的双工交互。

Mini-Omni2 由清华大学和 Inspirai 的研究人员开发，目标是提供一个类似于 GPT-4o 的多模态模型，但以开源的形式发布。

技术背景：

GPT-4o 是一个里程碑式的多模态大语言模型，能够理解视觉、听觉和文本模态，并直接输出音频，支持灵活的双工交互。然而，GPT-4o 并未开源，其技术规格也未公开。Mini-Omni2 通过整合预训练的视觉和听觉编码器，保持了各个模态的性能，并通过三阶段训练过程对齐模态，使语言模型能够在有限的数据集上处理多模态输入和输出。

发展历程：

Mini-Omni2 是 Mini-Omni 的延续，采用单一模型端到端模拟 GPT-4o 的视觉、语音和文本能力，并增强了独特的命令中断机制。Mini-Omni2 保留了 Qwen2 作为基础模型，通过这种紧凑的架构实现了全面的多模态理解和实时流式语音推理。

2. 功能特色

端到端的多模态交互能力：Mini-Omni2 不仅支持文本输入输出，还能处理语音信号，实现真正的语音到语音的交流。这是通过文本指导的并行生成技术实现的，消除了传统文本生成和语音合成之间的延迟问题，提供了流式音频输出，减少了语音生成的延迟。
实时语音响应：Mini-Omni2 能够提供实时的端到端语音输入和输出对话能力。这意味着用户可以直接通过语音与模型进行自然流畅的对话，模型会实时输出语音响应，显著减少了延迟，提高了交互的自然流畅性。
文本和音频同时生成：Mini-Omni2 的一个独特之处在于它能够同时生成文本和音频。这种“边想边说”的能力确保了对话流程的连贯性和流畅性。在交互过程中，模型一边生成准确的文本信息，一边将其转化为自然的音频输出。
流式音频输出：Mini-Omni2 支持流式音频输出，这对于那些对实时性要求较高的交互应用场景来说是至关重要的。例如在实时语音通话、在线客服等场景中，模型能够实时地将生成的音频片段输出，减少用户等待时间，提供更加流畅和自然的交互体验。
高效的批量推理能力：Mini-Omni2 通过“音频到文本”和“音频到音频”的批量推理方法，能够在短时间内处理大量的音频数据，进一步提升了模型的性能和响应速度。这种批量推理能力在处理大规模语音数据时具有明显的优势，可以有效地提高系统的整体效率。
先进的训练方法：Mini-Omni2 采用了高效的三阶段训练过程，包括模态扩展、模态对齐和联合训练。这种训练方法使得模型在有限的数据集上处理多模态输入和输出，提高了数据利用效率，并展示了算法的泛化能力。
命令中断机制：Mini-Omni2 引入了基于命令的中断机制，使得用户与模型的交互更加灵活。该模型能够执行实时编码接收到的“听觉”波形，生成控制自身输出的标记，允许基于外部语义信息控制音频输出流。
开源的模型和数据集：Mini-Omni2 的所有建模方法和数据构建方法都将开源，这意味着研究者和开发者可以访问和使用这些资源，进一步推动多模态语言模型的发展和应用。

3. 相对于 Mini-Omni 的主要改进点

Mini-Omni2 相对于 Mini-Omni 的主要改进点和结果如下：

实时语音响应：Mini-Omni2 引入了实时语音响应能力，减少了语音生成的延迟，提供了更流畅的交互体验。
命令中断机制：新增了基于命令的中断机制，允许用户在对话中更灵活地控制模型的输出。
训练方法优化：采用了三阶段训练过程，提高了数据利用效率，并增强了模型处理多模态输入和输出的能力。
语义中断方法：探索了基于语义的中断方法，使模型能够根据外部语义线索控制音频输出流。

改进结果：

Mini-Omni2 在多模态交互方面表现出更强的能力和更高的灵活性。
实时语音响应和命令中断机制的引入，提升了用户体验，使得交互更加自然和流畅。
训练方法的优化和语义中断方法的探索，为未来模型的发展和应用提供了新的方向。

4. 如何使用

GitHub 仓库：Mini-Omni2 的代码和相关文档可以在其 GitHub 仓库中找到。这是获取项目源代码和了解更多项目细节的主要途径。
- 项目 GitHub 地址：
arXiv 技术论文：Mini-Omni2 的研究团队在 arXiv 上发布了相关的技术论文，详细介绍了模型的架构、功能和训练方法。
- 论文地址见上面的：Mini-Omni2: Towards Open-source GPT-4o Model with Vision, Speech and Duplex

Mini-Omni2 的使用方法涉及多个步骤，包括安装依赖、启动服务器、运行演示等。以下是详细的使用指南：

安装依赖：
- 首先，需要创建一个新的conda环境并安装所需的包。可以使用以下命令：
```
conda create -n omni python=3.10
conda activate omni
git clone https:XXXX
#地址到https://www.meoai.net/mini-omni2.html查找
cd mini-omni
pip install -r requirements.txt
```
- 这些步骤将确保你有一个适合运行Mini-Omni2的环境，并安装了所有必要的依赖项。
启动服务器：
- 在运行任何演示之前，需要启动服务器，并将API_URL设置为服务器地址。可以使用以下命令：
```
sudo apt-get install ffmpeg
conda activate omni
cd mini-omni
python3 server.py --ip '0.0.0.0' --port 60808
```
- 这些命令将启动服务器，使其能够处理来自客户端的请求。
运行Streamlit演示：
- 如果你想在本地运行Streamlit演示，需要确保安装了PyAudio。如果遇到模块错误，可能需要设置PYTHONPATH环境变量。使用以下命令运行Streamlit：
```
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
```
- 这将启动一个Web界面，你可以在其中与Mini-Omni2模型进行交互。
运行Gradio演示：
- 你还可以使用Gradio来运行一个交互式的Web演示。这通常更简单，只需要运行一个命令即可：
```
API_URL=http://0.0.0.0:60808/chat gradio app:app
```
- 这将启动一个Gradio界面，你可以在其中与模型进行交互。