Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
文章目录
- 0. 摘要
- 1. 介绍
- 2. 方法
- 3. 实验
- 3.1 零样本上下文学习
- 3.1.1 评估指标
- 3.1.2 情境中的学习结果。
- 3.1.3 与传统说话人微调 TTS 模型的比较。
- 3.1.4 言语理解评估。
- 3.1.5 可视化真实语音和 ICL 语音的说话者相似性。
- 3.2 说话人微调
- 3.2.1 通过指令微调实现可控性。
- 3.3 低延迟推理和流式处理
- 4. 模型扩展
- 4.1 通过字蒸馏实现语音分解
- 4.2 通过强化学习实现偏好偏差
- 4.3 完全基于扩散的语音生成
- 4.3.1 内容编辑和语速编辑。
- 5. 模型应用、局限性和安全性
论文名称:Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
论文作者:字节跳动 Seed团队
发表时间:2024年6月
效果演示地址:效果演示
0. 摘要
文章推出了Seed-TTS,这是一系列大规模自回归语音合成模型。Seed-TTS 是语音生成的基础模型,在语音上下文学习方面表现出色,在说话人相似性和自然度方面的表现与客观和主观评估中的真实人类语音相匹配。通过微调,Seed-TTS在这些指标上获得了更高的主观分数。Seed-TTS 对各种语音属性(例如情感)具有出色的可控性,并且能够为自然界的说话者生成极具表现力和多样性的语音。此外,文章中提出了一种自蒸馏方法用于语音分解,以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。
除此之外,文章还提出了一种采用了完全基于扩散架构的非自回归 (NAR) 变体 Seed-TTS模型,名为Seed-TTS_DiT。与之前基于 NAR 的 TTS 系统不同,Seed-TTS_DiT不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。此变体实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。
1. 介绍
Seed-TTS 的主要目标是创建一个接近人类水平的语音生成模型,即使对于自然界中任意说话者,尽管数据很少,也能达到这一水平。Seed-TTS 已在三项任务上进行了评估:零样本语音上下文学习 (ICL)、说话者微调和情绪控制。文章中发布了测试数据集的配置以供将来进行基准测试,并讨论了模型在产品部署方面的行为。
文章中介绍了两种可以显著提高模型性能的新型扩展技术:通过自蒸馏进行语音分解和通过强化学习 (RL) 实现偏好偏向。对于前者,不同于常用特征工程,或专门的损失公式,或模型设计方法,文中简单的自蒸馏方案使 Seed-TTS 能够在不改变模型结构或损失函数的情况下实现高质量的音色分离。对于后者,采用了 RL 技术并证明其在提高鲁棒性、说话人相似性和可控性方面的有效性。
然后,比较了语音生成两大类别的优缺点:基于语言模型的和基于扩散的建模。为此,本文设计了 Seed-TTS 的非自回归 (NAR) 变体,名为Seed-TTS_DiT,这是一个完全基于扩散的语音生成模型,它以端到端的方式直接预测输出语音潜在表示,而不是像以前的 NAR 方法那样依赖于单独的持续时间预测模块,文章证明 Seed-TTS_DiT 其性能与基于自回归语言模型的方法相当,并展示了其语音编辑能力。
最后,文章讨论了 Seed-TTS 的潜在应用和局限性,以及在开发过程中遇到的几个挑战,包括与构建对社会负责的人工智能 (AI) 相关的挑战。
文章主要贡献如下:
- 推出了 Seed-TTS,这是一系列语音生成模型,能够生成极具表现力、类似人类的语音。证明了 Seed-TTS 在多项评估中实现了最佳 (SOTA) 性能。在零样本 ICL 设置下,表明 Seed-TTS 能够生成稳健、相似且高度动态的语音,与人类语音难以区分。
- 提出了一种用于音色分离的 Seed-TTS 的新型自蒸馏扩展,并在语音转换任务中展示了 SOTA 性能。
- 为 Seed-TTS 引入了一种新颖的基于 RL 的后训练扩展,从整体上提高了模型的性能。
- 提出了一种全新的完全基于扩散的 Seed-TTS 变体,它实现了卓越的生成质量。我们展示了它在语音编辑任务中的优势,并将其与基于语言模型的同类产品进行了比较。
2. 方法
Seed-TTS 是一种基于自回归Transformer的模型,如图所示。该系统由四个主要构建块组成:speech tokenizer、token language model、token diffusion mode和acoustic vocoder。强调一下,Seed-TTS 是在大量数据上进行训练的(比以前最大的 TTS 系统大几个数量级),以实现强大的泛化和突发能力。
首先,speech tokenizer将语音信号转换为语音token序列(tokenizer的设计对整个系统的性能至关重要)。语言模型在文本和语音标记的成对序列上进行训练。在推理过程中,它会自回归地生成语音标记。论文中专注于语音生成任务,因此文本序列的损失被掩盖了。然后,这些生成的标记由扩散模型处理以增强声学细节。输出被传递给声学声码器以预测最终波形。声学声码器是单独训练的。
Seed-TTS 经历三个训练阶段:预训练、微调和后训练。预训练阶段旨在最大化场景和说话者的覆盖范围,同时为通用语音建模建立强大的主干。如前所述,Seed-TTS 在此阶段使用的训练数据量和模型规模比以前的语音生成模型大几个数量级。微调阶段包括说话人微调和指令微调,说话人微调侧重于提升特定说话人群体的表现,指令微调则着重提升可控性和互动性。后训练通过强化学习进行,整体提升模型性能。
Seed-TTS 模型有两个主要优势。
- 首先,Seed-TTS 在各种场景中都表现出卓越的语音合成能力,包括喊叫、哭泣或情绪激动的语音等具有挑战性的场景。在开发过程中,我们在之前的 TTS 系统认为困难或不可能的场景中严格测试了该模型,结果显示出比之前的 SOTA 系统明显的优势。
- 其次,Seed-TTS 解决了基于语言模型的 TTS 系统中普遍存在的稳定性问题,这些问题阻碍了它们在现实世界中的部署。稳定性是通过改进 token 和模型设计、增强训练和推理策略、数据增强和强化后训练来实现的。因此,Seed-TTS 在测试集上实现了更好的稳健性。
Seed-TTS 是语音生成的基础模型,可以执行各种任务,例如语音 ICL、可控 TTS、跨语言 TTS、语音转换、音色生成和说话风格转换。在本文中,我们在语音 ICL、说话人微调、可控 TTS 和语音转换任务中展示了 Seed-TTS。
3. 实验
3.1 零样本上下文学习
实验准备了两个测试集,分别称为客观集和主观集。客观集包括从英语 (EN) 和普通话 (ZH) 公共语料库中提取的样本,用于衡量模型在各种客观指标上的表现,包含 Common Voice 数据集中的 1,000 个样本和来自 DiDiSpeech 数据集的 2,000 个样本。主观集包括从用于主观评估的内部数据集中采样的 100 个英语和普通话样本,包含的语音明显比客观集丰富,包括具有多种口音、方言、情感和说话风格的极具表现力的语音。
对于两个测试集,确保每个样本包含由同一说话者说出的一个参考话语和一个目标话语。应用所提出的 Seed-TTS 系统基于参考语音作为音频提示来生成目标文本的语音。通过这种方式,我们可以直接将合成语音与真人的真实语音进行比较。参考话语的持续时间为 3 到 20 秒。
3.1.1 评估指标
采用词错误率 (WER) 和说话人相似度 (SIM) 指标进行客观评估。对于 WER,采用 Whisper-large-v3和 Paraformer-zh作为英语和普通话的自动语音识别 (ASR) 引擎。对于 SIM,使用在说话人验证任务上经过微调的 WavLM-large来获得说话人嵌入,用于计算每个测试话语的语音样本与参考片段的余弦相似度。使用比较平均意见分数 (CMOS) 研究进行主观评估。
对于每个测试样本,首先向人类评估者展示目标说话人的参考语音片段。然后向他们展示我们模型的合成输出和相应的真实人类语音,以随机顺序播放。评估者被要求在 -2 到 +2 之间的范围内对与参考片段具有更高说话人相似性和表现力的样本进行评分,其中 -2 和 +2 表示对第一个样本的偏好最小和最强。我们收集结果,按照“Seed-TTS 与人类”的顺序重新排列每个比较,并对所有评估者和测试句子的偏好分数进行平均。根据经验,绝对 CMOS 分数小于 0.1 被认为在两个系统之间无关紧要。两个测试集的结果见下表-1。
系统 | 语种 | 客观集 | 主观集 | |
---|---|---|---|---|
WER | SIM | CMOS vs. Human | ||
Seed-TTS | EN | 2.249 | 0.762 | -0.07 |
Vocoder resynthesized | EN | 2.165 | 0.702 | - |
Human | EN | 2.143 | 0.730 | - |
Seed-TTS | ZH | 1.115 | 0.796 | -0.08 |
Vocoder resynthesized | ZH | 1.342 | 0.733 | - |
Human | ZH | 1.254 | 0.750 | - |
3.1.2 情境中的学习结果。
从表-1中,我们观察到 Seed-TTS 的 WER 与真实人类语音相似,且说话者相似度明显更高。这一结果可以通过以下观察来解释:即使由同一个说话者说出,真实语音和参考语音在说话风格和背景环境中仍可能有所不同。相比之下,Seed-TTS 在生成目标语音时准确捕捉了参考语音的特征,从而更一致、更忠实地再现了注册片段。
值得注意的是,较低的 WER 并不一定会导致说话人相似度的主观评分提高。我们通过经验观察到,较低的 WER 通常表示模型生成的语音更“标准化”,更容易被 ASR 系统识别,但会牺牲其他理想品质。例如,在提示语音包含浓重口音或高表现力的情况下,从生成的语音中获得较低的 WER 通常表示口音较少,模型输出空间的变化有限,这听起来可能不太自然,并且在主观评估中测量时说话人相似度降低。
在主观测试中,Seed-TTS 的表现与英语和普通话的真实人类语音非常接近,CMOS 得分分别为 -0.07 和 -0.08。请注意,主观测试集包括多样化和富有表现力的语音。在早期开发过程中,我们对几个先前的模型进行了同样的评估,所有这些测试的 CMOS 结果均低于 -1,这表明合成语音和真实人类语音之间存在很大差距。Seed-TTS 的主观测试标志着 TTS 系统首次在零样本 ICL 设置中使用自然语音提示生成与真实人类语音难以区分的结果。对于 CMOS 分数较低的样本,评估人员注意到真实人类语音在句子中包含更多变化,而合成语音保持了参考定义的一致韵律。这种一致性可以使其与语音提示具有更好的相似性,但会导致长篇语音生成的韵律变化略少。多样本 ICL 方法可能会解决这个限制,我们将在未来的工作中对此进行研究。
3.1.3 与传统说话人微调 TTS 模型的比较。
我们将零样本 ICL 系统与一组传统的基于 FastSpeech 的说话人微调 TTS 模型进行了比较。我们收集了 10 位说话人的语音,分为两组:“common”说话人集(7 位说话人),由普通的日常语音组成;“hard”说话人集(3 位说话人),由口音浓重或说话风格非常独特、夸张的说话人组成,例如电子高音调花栗鼠虚拟角色。对于 Seed-TTS,使用平均持续时间为 15 秒的随机选择的句子作为每位说话人的语音提示。每位说话人的完整训练集(每人大约 5 小时)用于微调单独的、训练有素的传统 TTS 系统。
对于每个说话者,每个系统生成 30 条话语,涵盖不同的场景、语境和情绪。我们测量了 10 位人类评估者对每个说话者的每个系统的平均偏好率,并将结果显示在下图中。
我们观察到,对于“common”说话者集,零样本 ICL 系统在 47.9% 的测试样本中优于传统的微调 TTS 系统。根据人工评估者的说法,Seed-TTS 在自然度和表现力方面表现出明显优势。然而,对于“hard”的说话者,传统的微调模型表现出更强的性能。我们推测这是因为我们的零样本 ICL 生成不能忠实地保留口音和独特的说话风格,特别是在 15 秒提示中未包含说话者的代表性韵律的情况下。我们相信,随着提示时间的延长和训练数据覆盖范围的扩大,这种限制可以得到缓解。
3.1.4 言语理解评估。
我们通过在生成的语音上训练 ASR 模型来进一步验证 Seed-TTS 的生成质量,为此,我们生成了 LibriSpeech 960 小时训练集的合成版本,并使用合成语料库从头开始训练 ASR 模型,然后我们使用该模型在原始 LibriSpeech 开发和测试集上转录语音。具体来说,我们通过使用训练集中随机采样的文本作为音频提示来合成新句子,从而生成训练集中每句话语的合成版本,同时确保所有话语和文本仅采样一次。通过这种方式,我们创建了一个合成的 LibriSpeech 训练语料库,该语料库与原始语料库保持相同的总体说话人和内容信息,以使用 WeNet 工具包训练 ASR 模型。我们采用了 12 层 Squeezeformer作为 ASR 编码器,3 层双向转换器作为 ASR 解码器。还在原始 LibriSpeech 训练语料上训练了 ASR 基线模型。所有模型都使用相同的超参数进行训练,例如 epoch 数、batch size、学习率等。每个模型都在 LibriSpeech 开发和测试集上进行了测试,结果如表-2所示。
我们观察到,对于干净的数据集,即dev_clean和test_clean,使用合成数据训练的模型实现的 ASR 性能与使用真实数据训练的模型非常相似。在嘈杂的dev_other和test_other数据集上分别观察到 1.81% 和 1.6% 的绝对 WER 下降,我们推测这是由于 Seed-TTS 倾向于在生成过程中降低背景噪声,从而导致对噪声的鲁棒性降低。通过数据增强,我们相信差距将会缩小。这一结果表明,在语音理解模型的开发中使用合成数据具有潜力,从而进一步推动语音理解和生成的统一。
3.1.5 可视化真实语音和 ICL 语音的说话者相似性。
为了验证合成语音中音色的保留,我们从 VoxCeleb1 测试集中生成了英语话语,使用与上述相同的改组方法,并使用Chen 等人基于 WavLM 的说话人验证模型获取其说话人嵌入。我们使用 t-SNE (Van der Maaten 和 Hinton),如图所示。
我们观察到,来自同一说话人的地面实况和合成语音的嵌入可靠地聚集在一起,这支持了以下发现:Seed-TTS 生成的语音的质量和说话人相似性与真实人类语音非常相似。
3.2 说话人微调
我们在基础 Seed-TTS 预训练模型的基础上执行说话人微调 (SFT)。在本次实验中,我们选择了 5 位说话人(3 位女性和 2 位男性),每位说话人的语音数据时长从 1 到 10 小时不等。我们使用他们的综合数据对 Seed-TTS 进行了微调,总共 20 小时,并集成了一个额外的说话人索引标记,以便在推理过程中选择目标说话人的音色。对于这些选定的说话人,我们评估微调模型生成的语音(Seed-TTS_SFT)与基础预训练模型(Seed-TTS_ICL) 使用 WER 和 SIM 客观指标以及主观 CMOS 研究。对于基础模型,使用随机采样的 20 秒语音片段作为每个说话者的音频提示。说话者微调实验的结果报告在表 3中。
相比Seed-TTS_ICL,微调模型在客观指标上表现出相似的性能,但在主观评价中表现出优势,CMOS 得分为 +0.37。我们的实证观察表明,微调后的Seed-TTS_SFT模型捕捉到了目标说话者的更多细微差别,例如细微的韵律变化和句子末尾独特的发音模式。
3.2.1 通过指令微调实现可控性。
为了进一步提高说话人微调模型的可控性,我们尝试整合附加指令微调 (IFT)。IFT 使模型能够灵活地控制生成语音的各个方面,例如表现力、语速、风格、情感等。我们在本报告中仅以情感控制为例进行展示。
为了验证情绪的可控性,我们训练了类似于陈等人的语音情绪识别(SER)模型。选取了四种主要情绪(即愤怒、快乐、悲伤和惊讶),并测量了合成语音预测情绪的准确性。我们为每种情绪生成并评估了 100 条话语,其中合成文本的主题旨在与目标情绪相匹配。
结果总结在表 4中。我们发现,即使没有明确的控制信号,Seed-TTS_SFT在情绪控制方面仍然获得了中等准确率。我们推测这是因为该模型能够根据提供的文本内容推断出适当的目标情绪。当与额外的控制信号相结合时,准确率会显著提高。
3.3 低延迟推理和流式处理
在实际应用中部署 TTS 模型从多个角度提出了一些实际挑战。例如,在基于聊天的应用中,延迟和第一个数据包延迟对于用户体验至关重要。时间和内存的计算成本对于服务并发性至关重要。与传统 TTS 模型相比,Seed-TTS 采用了明显更大的模型大小,为部署带来了额外的障碍。为了解决这些挑战,我们采用了各种技术来降低推理成本和延迟。
具体来说,我们解决了模型部署的三个方面。首先,实现了因果扩散架构,这使得扩散模块能够进行流式处理,并显著降低了处理延迟和首包延迟。其次,我们采用了一致性蒸馏和改进的流匹配算法来降低扩散模型的计算成本。另一方面,我们研究了常用的方法来减少语言模型方面的内存和计算消耗,例如分组查询注意、分页注意力,闪存注意力和模型量化 ,优化后的模型在主观和客观测试中都达到了与§3.1中描述的离线模型相当的性能,并且延迟、计算量和内存消耗都有显著的降低,如表5所示。
4. 模型扩展
文中进一步提出了两种对 Seed-TTS 模型的扩展,以提高其性能并拓宽其适用性。首先,引入了一种自我蒸馏方法,旨在提高音色的可控性。随后,提出使用强化学习来全面提高模型的能力。
4.1 通过字蒸馏实现语音分解
语音分解是指将语音分解为各种独立的、解开的属性的过程。此功能允许 TTS 系统灵活地合成来自不同说话者的具有不同音色、韵律和内容组合的语音,这对于零样本语音转换和分解零样本 TTS 等应用至关重要。大多数先前的方法都是通过特征工程实现属性解开的,具体损失函数,或精确的网络架构调整。然而,将这些方法集成到像 Seed-TTS 这样的通用语音生成系统中可能具有挑战性。
我们提出了一种自蒸馏方案来实现属性解缠。该方法的核心原理是创建受控语音对,这些语音对共享大多数信息,但在一个或多个特定目标属性上有所不同。利用此类数据对,再加上对模型架构的细微更新,Seed-TTS 模型可以实现高质量的属性解缠。鉴于 Seed-TTS 可以为几乎任何说话者生成高质量的零样本生成,因此生成具有不同目标属性的这些数据对非常简单。在本文中,我们特别强调了音色解缠的过程和结果。
我们注意到,通过在 Seed-TTS 生成过程中将说话人扰动引入扩散模块,我们能够获得具有相同内容和韵律模式但音色发生变化的合成语音。我们将原始句子和音色改变后的句子分别表示为S_ori和S_alt。
我们使用这些增强的合成数据对重新训练 Seed-TTS 系统中的扩散模型。具体来说,在训练过程中,从S_alt提取的token作为网络的输入。从S_ori中提取的音色也作为扩散输入的一部分进行集成。网络经过优化,可以恢复从S_ori中提取的声码器嵌入。 尤其,S_alt和S_ori内容和韵律相同,但音色不同。为了恢复S_ori,网络必须忽略来自S_alt的令牌序列中嵌入的音色,而仅依赖于提供的音色嵌入。我们发现这种简单的方法使 Seed-TTS 系统能够实现高质量的音色解缠。
我们通过零样本语音转换 (VC) 任务报告了所提出的解缠结方法的有效性。零样本 VC 涉及将源语音的说话者身份更改为新的目标音色,同时保留其口语内容。建议的 VC 管道图如图 4所示。在此设置中,只有 Seed-TTS 管道的扩散模块参与 VC 实验,因为内容和韵律由源语音决定。
我们引入了一个基于§3.1中的客观测试集为零样本语音转换评估而设计的测试集。具体来说,对于每个话语,我们随机选择一个不匹配的说话者作为音色参考。此测试集配置与零样本ICL测试集一起发布。我们在这个测试集上进行了基准测试实验,以评估我们提出的方法的有效性。我们选择了开源SOTA方法进行比较,包括HierSpeech++。由于这两种方法仅使用英语数据进行训练,因此我们将评估限制在英语测试子集上。
结果如表 6所示。我们发现,我们提出的自蒸馏方法通过增强音色分离显著改善了 SIM 指标,同时在所有其他维度上也优于现有方法。
4.2 通过强化学习实现偏好偏差
强化学习已被证明是文本和图像处理中的有效学习范例,研究表明,直接偏好优化(DPO)可以扩展到音乐和语音生成。受这些发现的启发,我们探索了与先前研究类似的 RL 方法来增强 Seed-TTS 的各个方面。我们将利用外部奖励模型的 RL 方法(例如近端策略优化和 REINFORCE)与不利用外部奖励模型的 RL 方法(例如 DPO)进行了比较。研究结果表明,这两种方法都是有效的。前者可以明确控制特定的语音属性,而后者则受益于更简单的实现。在本报告中,我们展示了前一种方法的有效性。
具体来说,我们在原始零样本 ICL 模型的基础上,利用 REINFORCE 对两个版本进行微调(Seed-TTS_ICL)使用不同的奖励函数:Seed-TTS_RL-SIM-WER,使用 SIM 和 WER 客观指标作为奖励,以提高说话人的相似性和稳健性,并且Seed-TTS_RL-SER,它使用 SER 模型的准确率作为奖励来提高情绪可控性。我们再次使用 § 3.1中提到的相同客观和主观测试集来验证 RL 在我们系统中的贡献。此外,还准备了一个新的“hard”文本测试集用于评估,其中包含 400 个句子,其中包含对自回归模型特别具有挑战性的模式,例如单词重复、绕口令等。表 7、表 8和表 9展示了客观和主观评估的结果。
从表 7和表 8中,我们观察到 RL 在主观和客观测试中的优势,从而提高了语音 ICL 任务中的稳定性和说话人相似性。在表 9中,我们发现,尽管Seed-TTS_RL-SER与说话人微调Seed-TTS_SFT相比,零样本中的情绪可控性有所下降,但是与Seed-TTS_ICL相比,RL 的应用显著提高了各种情绪的控制准确率。这一增强凸显了集成 RL 技术以提高语音合成模型中的情感表达和控制性能的有效性。
我们观察到了奖励黑客攻击,这是 RL 中一个众所周知的问题在我们的工作中。例如,为了实现较低的 WER,该模型倾向于生成速度较慢且发音更清晰的话语,从而牺牲自然度。这一观察结果与 § 3.1中的发现一致,其中过低的 WER 通常会导致更“标准化”但不太自然的语音。需要仔细调整网络以实现最佳性能,以平衡 RL 提供的这些权衡。
4.3 完全基于扩散的语音生成
语言建模和扩散模型是多媒体生成的两种主要方法。之前的一些研究直接比较了它们在图像和视频生成中的表现, 但我们认为这种对语音和音频生成的比较仍然有限。为了进一步了解这两种建模方法的特点,我们提出了一种仅基于扩散的 Seed-TTS 模型的变体,表示为Seed-TTS_DiT。在这个变体中,我们消除了扩散模型和声学标记器之间的依赖关系,使得扩散模型纯粹基于输入文本直接将高斯噪声转换为声码器的潜在表示。
我们通过实证研究发现,加入一个额外的持续时间预测模型会导致合成语音的自然度降低。因此,在我们修改的设计中Seed-TTS_DiT,我们直接在扩散模型中使用端到端处理。与估计音素级持续时间相反,该模型会预先估计生成的语音的总持续时间。然后优化模型以估计音频和文本之间的局部对齐。这样,Seed-TTS_DiT可以动态调整每个音素的持续时间,从而产生高度自然的语音。
我们发现Seed-TTS_DiT经过适当训练后,能够预测输入语音的适当总时长。但是,我们选择直接向模型提供总时长,而不是以这种方式进行训练,这样可以实现一些额外的理想属性,可用于内容编辑和语速编辑。为此,在训练期间,扩散模型会接收音频提示、目标文本和一段高斯噪声,每个样本的总时持续时间,并预测具有相同总时长的生成语音的潜在表示,然后由声码器将其转换为波形。
与采用下一个标记语言建模的方法相比,纯扩散模型具有更简单的流程。作为非流式模型,Seed-TTS_DiT自然支持内容编辑的应用,如图5所示。话虽如此,语言建模方法具有流式处理的优势,并且能够与基于文本的语言模型集成。
我们使用与§3.1中相同的测试集来评估Seed-TTS_DiT在零样本 TTS 任务上进行了测试,并在表 10中展示了评估结果。我们发现完全基于扩散的方法在 SIM 中取得了优异的性能,同时取得了与Seed-TTS_ICL相近的WER结果。这一发现表明扩散模型具有强大的序列建模能力。
4.3.1 内容编辑和语速编辑。
我们进一步评估Seed-TTS_DiT在两个语音编辑任务上进行实验:内容编辑和语速编辑。我们使用§3.1中使用的测试集样本的真实值对应物进行这些实验。在内容编辑任务中,我们屏蔽一定比例的音频,并使用模型根据每个测试样本提供的文本恢复被屏蔽的部分。我们继续使用 WER 和 SIM 作为客观评估指标。具体来说,我们根据恢复的音频和原始音频计算 SIM 指标,以确定恢复的音频是否与原始说话者相似。评估结果如图 6 所示。
5. 模型应用、局限性和安全性
Seed-TTS 模型系列能够创建富有表现力和跨语言的语音转换,可实现语音聊天、有声读物和内容创作等多种应用的升级。此外,凭借高保真的语境学习,Seed-TTS 可提高跨语言障碍的可访问性,并为有言语障碍的患者提供潜在的解决方案。如 § 3.1中所述,Seed-TTS 还可作为增强和统一语音理解和生成模型的潜在桥梁。
尽管 Seed-TTS 功能强大,但它仍有几个局限性。尽管可以观察到突发行为,但该模型有时在需要细微情感和情境理解的场景中存在局限性。此外,尽管使用大量数据进行训练,但在场景覆盖方面仍有改进空间。例如,当前的 Seed-TTS 模型在唱歌或给出包含背景音乐或过多噪音的提示时表现不佳,通常会产生不一致的背景,例如完全忽略音乐。
考虑到滥用可能会产生有害的社会影响,我们在相关产品中实施了多项安全程序,以防止在开发和部署此模型的整个过程中出现滥用。例如,我们开发了一种多步骤验证方法,用于验证语音内容和说话者音色,以确保注册音频仅包含授权用户的声音。此外,我们还实施了一种多级水印方案,该方案强制包含在创建内容的各个级别,例如视频背景水印和内容描述中的水印。