当前位置: 首页 > article >正文

4.1-4 SadTalker数字人 语音和嘴唇对应的方案

前言:

SadTalker是一个强大的数字人相关的RA/SD插件。它本身是一个非常独立的产品。你只需要提供一段视频,一段文字,简单的配置,在RA/SD中简单的生成即可。

视频中人物的嘴唇很好的应对了你要发声的文字内容。效果很赞。仔细学习后体验下吧。

知识点:

  1. SadTalker
  2. 数字人
  3. 唇音联动

插件介绍

https://sadtalker.github.io/的论文和很多DEMO

主要是数字人相关的强大插件。

官方地址:

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

本地地址:

第一步

RA的扩展中安装自URL即可。

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

如果出现失败,多数是VPN穿墙的问题。

重启SD 的webui

第二步 

下载模型。放到SD的这些目录下。2选1 即可。

stable-diffusion-webui/models/SadTalker or

 stable-diffusion-webui/extensions/SadTalker/checkpoints/   代码中用这个位置。我们就放这里

注意gfpgan的目录和checkpoints同级别

奇怪的是。这个位置也要放一份GFPGAN – 不然处理过程中还是会去下载的。

第三步

选择一个照片。也可以由SD生成一个。选择一个音频文件。

音频文件格式支持这些

在SadTalker的界面上简单配置下,点击【Generate】

顺利的话COnsole中输出这样的 (下面第一张图还是在下载GFPGAN的模型么,因为我们之前没放这个位置)

如果遇到FFMPEG的错误问题

提示没有安装ffmpeg。

用pip install ffmpeg还没有解决问题。

就用我们编译好的包。然后PATH指向,重启电脑即可。


http://www.kler.cn/a/593060.html

相关文章:

  • 【Go语言圣经2.6】
  • 【责任链模式的多种实现方式及其应用】
  • docker需要sudo才能使用
  • 【canvas】一键自动布局:如何让流程图节点自动找到最佳位置
  • 目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别(续)
  • 【Linux笔记】动态库与静态库的理解与加载
  • 轻量级模块化前端框架:快速构建强大的Web界面
  • Grounding DINO: 将DINO与接地预训练结合用于开放集目标检测
  • OPPO手机怎么更改照片天空?照片换天空软件推荐
  • 【开源宝藏】30天学会CSS - DAY2 第二课 Loader Ring Demo
  • 洛谷 P3986 斐波那契数列
  • MySQL 多列 IN 查询详解:语法、性能与实战技巧
  • 抖音视频数据获取实战:从API调用到热门内容挖掘
  • Vue:Vue2和Vue3创建项目的几种常用方式以及区别
  • Unity实现连连看连线效果
  • SpringBoot前后端不分离,前端如何解析后端返回html所携带的参数
  • LLM(5):了解 GPT 架构
  • 2024年数维杯数学建模A题多源机会信号建模与导航分析解题全过程论文及程序
  • 合并两个有序数组(js实现,LeetCode:88)
  • 【零基础入门unity游戏开发——unity3D篇】3D模型 —— 3D模型基础介绍