4.1-4 SadTalker数字人 语音和嘴唇对应的方案
前言:
SadTalker是一个强大的数字人相关的RA/SD插件。它本身是一个非常独立的产品。你只需要提供一段视频,一段文字,简单的配置,在RA/SD中简单的生成即可。
视频中人物的嘴唇很好的应对了你要发声的文字内容。效果很赞。仔细学习后体验下吧。
知识点:
- SadTalker
- 数字人
- 唇音联动
插件介绍
https://sadtalker.github.io/的论文和很多DEMO
主要是数字人相关的强大插件。
官方地址:
GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
本地地址:
第一步
RA的扩展中安装自URL即可。
GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
如果出现失败,多数是VPN穿墙的问题。
重启SD 的webui
第二步
下载模型。放到SD的这些目录下。2选1 即可。
stable-diffusion-webui/models/SadTalker
or
stable-diffusion-webui/extensions/SadTalker/checkpoints/ 代码中用这个位置。我们就放这里
注意gfpgan的目录和checkpoints同级别
奇怪的是。这个位置也要放一份GFPGAN – 不然处理过程中还是会去下载的。
第三步
选择一个照片。也可以由SD生成一个。选择一个音频文件。
音频文件格式支持这些
在SadTalker的界面上简单配置下,点击【Generate】
顺利的话COnsole中输出这样的 (下面第一张图还是在下载GFPGAN的模型么,因为我们之前没放这个位置)
如果遇到FFMPEG的错误问题
提示没有安装ffmpeg。
用pip install ffmpeg还没有解决问题。
就用我们编译好的包。然后PATH指向,重启电脑即可。