当前位置: 首页 > article >正文

OpenAI-Edge-TTS:本地化 OpenAI 兼容的文本转语音 API,免费高效!

文本转语音(TTS)技术已经成为人工智能领域的重要一环,无论是语音助手、教育内容生成,还是音频文章创作,TTS 工具都能显著提高效率。今天要为大家介绍的是 OpenAI-Edge-TTS,一款基于 Microsoft Edge 在线文本转语音服务的开源项目,它提供了一个与 OpenAI API 兼容的本地 TTS 端点,让你能够通过简单的配置轻松实现文本到语音的转换,而且完全免费!


一、什么是 OpenAI-Edge-TTS?

OpenAI-Edge-TTS 是一个模拟 OpenAI TTS 端点(/v1/audio/speech)的本地服务,使用 Microsoft Edge 在线 TTS 服务来生成语音。通过这款工具,用户无需访问 OpenAI 的官方 API,只需通过本地服务器即可实现文本转语音的功能,同时还支持多种语音和音频格式选项。

项目地址:https://github.com/travisvn/openai-edge-tts

核心特点
  1. OpenAI 兼容 API
    提供 /v1/audio/speech 端点,与 OpenAI API 端点结构一致,方便用户无缝切换到本地化服务。
  2. 支持丰富的语音类型
    将 OpenAI 的语音选项(如 alloy、echo、fable 等)映射到 Edge-TTS 的等效语音,同时支持直接指定任何 Microsoft Edge-TTS 语音。
  3. 多种音频格式支持
    支持输出多种音频格式,包括 mp3、opus、aac、flac、wav 和 pcm,适配不同使用场景。
  4. 灵活调整播放速度
    支持 0.25 倍到 4.0 倍的播放速度调整,满足特殊场景需求。
  5. 免费使用
    依赖 Microsoft Edge 的在线 TTS 服务,完全免费,降低使用门槛。
  6. 多语言支持
    除英语外,还支持其他语言和地区的语音生成,如日语、中文等。

在这里插入图片描述


二、OpenAI-Edge-TTS 的主要应用场景

1. 音频内容创作

快速将文本内容转换为自然流畅的语音,适用于音频文章、播客脚本或教育视频的音频配音。

2. 开发与测试环境

为需要 OpenAI TTS 的开发者提供本地替代方案,便于开发和测试,节省调用官方 API 的成本。

3. 多语言语音输出

支持多语言生成,无论是创建本地化内容,还是测试跨语言功能,OpenAI-Edge-TTS 都能满足需求。

4. 定制化服务

通过可调的播放速度和语音类型,提供更加灵活的语音定制能力,适配特定的项目需求。


三、快速上手 OpenAI-Edge-TTS

1. 环境准备

推荐使用 Docker 部署

  • 安装 Docker 和 Docker Compose,确保运行环境就绪。

可选使用 Python 本地运行

  • 需要 Python 3.8+ 和 FFMPEG(如果需要进行音频格式转换)。

2. 部署服务

(1)使用 Docker 一键部署

  1. 克隆项目:

    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
    
  2. 配置环境变量:
    在根目录创建 .env 文件,填写以下内容:

    API_KEY=your_api_key_here
    PORT=5050
    DEFAULT_VOICE=en-US-AvaNeural
    DEFAULT_RESPONSE_FORMAT=mp3
    DEFAULT_SPEED=1.0
    DEFAULT_LANGUAGE=en-US
    REQUIRE_API_KEY=True
    REMOVE_FILTER=False
    EXPAND_API=True
    

    或者直接复制默认配置:

    cp .env.example .env
    
  3. 启动服务:
    使用 Docker Compose 启动服务:

    docker compose up --build
    

    在后台运行服务:

    docker compose up -d
    

(2)使用 Python 本地运行

  1. 克隆项目并进入目录:

    git clone https://github.com/travisvn/openai-edge-tts.git
    cd openai-edge-tts
    
  2. 创建虚拟环境并安装依赖:

    python3 -m venv venv
    source venv/bin/activate  # macOS/Linux
    # 或者
    venv\Scripts\activate  # Windows
    
    pip install -r requirements.txt
    
  3. 配置环境变量(参考 .env 文件)。

  4. 启动服务:

    python app/server.py
    

3. 测试 API

服务启动后,访问 API 端点:

http://localhost:5050/v1/audio/speech
示例请求

使用 curl 将文本转化为语音并保存为 MP3 文件:

curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "Hello, I am your AI assistant!",
    "voice": "alloy",
    "response_format": "mp3",
    "speed": 1.1
  }' \
  --output speech.mp3

支持其他语言:

curl -X POST http://localhost:5050/v1/audio/speech \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your_api_key_here" \
  -d '{
    "input": "こんにちは、私はAIアシスタントです。",
    "voice": "ja-JP-KeitaNeural"
  }' \
  --output speech.mp3

四、与官方 OpenAI TTS 的对比

功能维度OpenAI-Edge-TTSOpenAI TTS API
成本完全免费需按调用量付费
多语音支持支持 Edge-TTS 全部语音支持官方指定语音
兼容性模拟 OpenAI API 端点官方支持
扩展能力可自行扩展语音类型与功能功能固定
部署方式本地化运行,支持 Docker 部署依赖云端

五、总结:文本转语音的本地化高效方案

OpenAI-Edge-TTS 通过模拟 OpenAI TTS API,结合 Microsoft Edge 在线 TTS 服务,为开发者提供了一款免费、高效且功能丰富的文本转语音解决方案。无论是用于本地开发、测试,还是构建音频内容创作平台,这款工具都能极大降低使用成本,同时提供出色的扩展能力。


http://www.kler.cn/a/523256.html

相关文章:

  • PHP 7 新特性
  • 层次聚类构建层次结构的簇
  • Greenplum临时表未清除导致库龄过高处理
  • ORA-04031 错误
  • Vue 3 + TypeScript 实现父子组件协同工作案例解析
  • 【ESP32】ESP-IDF开发 | WiFi开发 | UDP用户数据报协议 + UDP客户端和服务器例程
  • 【C语言练习题】数字螺旋方阵
  • 小南每日 AI 资讯 | AI将向“少样本学习”发展? | 25/01/25
  • 【Leetcode 热题 100】416. 分割等和子集
  • 在Windows下安装Ollama并体验DeepSeek r1大模型
  • LangChain概述
  • 开关电路汇总
  • AI软件栈:LLVM分析(一)
  • kafka消费者详细介绍(超级详细)
  • 02-机器学习-核心概念
  • games101-(5/6)
  • 蓝桥云课下载(jdk11、eclipse、idea)
  • 机器人抓取与操作概述(深蓝)——1
  • C++ | 红黑树
  • 2025年01月28日Github流行趋势
  • qwen2.5-vl:阿里开源超强多模态大模型(包含使用方法、微调方法介绍)
  • 怎样在PPT中启用演讲者视图功能?
  • 苍穹外卖使用MyBatis-Plus
  • WSL安装CUDA
  • 大模型本地部署流程介绍
  • 变压器的漏感