1.6K+ Star!Ichigo:一个开源的实时语音AI项目
Ichigo 简介
Ichigo[1] 是一个开放的、持续进行的研究项目,目标是将基于文本的大型语言模型(LLM)扩展,使其具备原生的“听力”能力。
可以将其视为一个开放数据、开放权重、设备上的 Siri。该项目采用了早期融合技术,灵感来源于Meta的Chameleon论文。
项目特点
主要特点
-
早期融合技术:Ichigo使用的早期融合技术是指将语音信号和文本信息在模型的早期阶段就进行结合,形成一个统一的表示。
-
多轮对话能力:Ichigo具备改进的多轮对话能力,并能拒绝处理听不清楚的查询。
-
开放研究实验:Ichigo是一个开放的研究实验,鼓励社区参与和协作。
-
模型训练公开:Ichigo的训练过程是公开的,包括不同版本的模型检查点和详细的技术细节。
使用场景
Ichigo 适用于需要实时语音识别和处理的场景,如智能助手、语音控制应用等。
项目使用
快速开始(Google Colab)
可以通过以下链接尝试Ichigo的最新模型: 在Colab中打开[2]
合成数据生成
有关合成数据生成的详细