fast-voice-assistant
首先我们来到这个据说50行代码就可以创建个人语音助手的github地址
GitHub - dsa/fast-voice-assistant: ⚡ Insanely fast AI voice assistant with <500ms response times
按照readme 完成环境的配置
but,你发现,这只是第一步,真正的难点在于完成.env中各个key的配置
1)Using the API — Cartesia
一个最快的文本转语音模型Sonic
2)https://inference.cerebras.ai/
一个提供大模型api-key的平台,类似于altogether
这里需要申请,需要我用openai的key代替使用
assistant = VoiceAssistant(
vad=ctx.proc.userdata["vad"],
stt=deepgram.STT(),
llm=openai.LLM(
base_url="https://api.openai.com/v1/chat/completions",
api_key=os.environ.get("OPEN_API_KEY"),
model="gpt-4o-mini",
),
tts=cartesia.TTS(voice="248be419-c632-4f23-adf1-5324ed7dbf1d"),
chat_ctx=initial_ctx,
)
3)https://cloud.livekit.io/projects/p_2tdv1p4liil/settings/keys
LiveKit
是一个开源的实时通信平台,基于WebRTC
,主要用于构建高质量的音视频通话、实时数据传输和互动应用。
LiveKit
除了方便以外的大优势就是它提供了丰富的API
和SDK
,支持多种平台,包括Web
、iOS
、Android
和服务端
。
4)运行
后端python main.py dev
前端如下
https://github.com/livekit/agents-playground
扩展
linux 运行开源音视频livekit,实现html视频语音聊天。-CSDN博客
GitHub - livekit/livekit: End-to-end stack for WebRTC. SFU media server and SDKs.