当前位置: 首页 > article >正文

视频和音频合成视频Easy_Wav2Lip

Easy_Wav2Lip  是使用视频和音频合成新的视频
Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说,三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip>Geneface++=AD-Nerf

1. 整体流程
第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)
第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。另外mask也不是用分割模型,而是直接将图片下半部分全部作为mask😄,然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步:预测出来的人脸拼接到原图上,输出位视频。

2. 优缺点
优点:极其简单,一个人脸检测模型+一个基于CNN的lipsync模型,速度很快。
缺点:嘴唇经常是歪的,而且有变形;牙齿不断在闪烁。

比sadtalker丝滑多了


软件包运行:go-web.bat    双击就可以了
 



运行成功,用浏览器打开:http://127.0.0.1:7860/
 



运行成功。
可以上传一段视频和音频试试
 


生成中

一分钟视频合成花了50分钟
看看效果

813



最后,推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:

视频质量选项:Enhanced
分辨率选项:full resolution
Wav2Lip版本选项:Wav2Lip
启动追踪旧数据:True
启用脸部平滑:True
嘴部上边缘:0
嘴部下边缘:10
嘴部左边缘:0
嘴部右边缘:0
Mask尺寸:1
Mask羽化:1
启用嘴部追踪:True
启用调试:False

参考视频:如何用自己的形象生成AI数字人,代替自己出镜创作短视频和直播?零成本干货教学!_哔哩哔哩_bilibili
资源包有:
ChatTTS增强版一件整合包
AI数字人生成工具
EchoMimic照片转视频等
还有各种常见的AI常用提示词,比如网文写作

总的链接放下面了
⚙️AI吧教学日记 · AI工具和教程分享⚙️ · 语雀
有需要的小伙伴可自行领取

================================
构建中国人自己的私人GPT
构建中国人自己的私人GPT - 神经网络 - 金双石科技 -
(出处: 金双石科技)

AI绘图软件stable-diffusion 3
AI绘图软件stable-diffusion 3 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

AI绘图软件fooocus
AI绘图软件fooocus - 神经网络 - 金双石科技 -
(出处: 金双石科技)

文字生成语音1
文字生成语音1 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

图片和音频合成数字人SadTalker
图片和音频合成数字人SadTalker - 神经网络 - 金双石科技 -
(出处: 金双石科技)

视频和音频合成视频Easy_Wav2Lip
视频和音频合成视频Easy_Wav2Lip - 神经网络 - 金双石科技 -
(出处: 金双石科技)

3D模型和音频合成数字人
3D模型和音频合成数字人 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

实时智能应答3D数字人
实时智能应答3D数字人 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

AI模型生成数字人DeepFaceLive
AI模型生成数字人DeepFaceLive - 神经网络 - 金双石科技 -
(出处: 金双石科技)


http://www.kler.cn/news/284112.html

相关文章:

  • ROS - Turtle Nest 使用说明
  • 机器学习/数据分析案例---糖尿病预测
  • Java基础——IO概述
  • Java算法之快速排序(Quick Sort)
  • 服务器机柜与网络机柜的区别有哪些?
  • 耦合和内聚
  • redis集群部署
  • 集成电路学习:什么是DAC数模转换器
  • Maven <parent> 标签的作用及使用详解
  • 【React】useEffect的使用场景与作用
  • 什么软件可以用平板远程控制电脑?
  • 【使用 Python 进行图像裁剪的多种方法】
  • Leetcode Hot 100刷题记录 -Day5(双指针)
  • 1.7 离散频率
  • python学习-04【流程控制语句】
  • Qt 调用MFC dll,动态库中有界面
  • 数据结构——链式二叉树的实现与分治编程思维(c语言实现)
  • sql-labs靶场(41-50)
  • unity脚本
  • 理解 Maven 依赖范围及编译与运行时的需求
  • 无缝 CI/CD:如何在 Windows 环境中使用 Docker 和 Jenkins 自动化部署 .NET 应用
  • 嵌入式全栈开发学习笔记---Linux系统编程(进程控制)
  • 全球城市多边形和点数据集 (GUPPD)
  • 带你手撕面试题——定时器方案:红黑树版
  • OSINT技术情报精选·2024年8月中旬
  • 美容院拓客营销门店管理小程序渠道进行
  • 我的世界实体与生物ID表
  • 前后端传参@RequestParam使用上的一个小坑
  • 代码随想录八股训练营总结篇 2024年8月
  • 爬虫入门urllib 和 request (一)