当前位置：首页 > article >正文

LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

article 2025/2/28 20:24:13

分享一个最近还不错的数字人项目——LatentSync。该项目由字节开源，上传一段音频和视频，即可生成数字人视频。

我对该项目做了些更改，增加了批量和MAC版本的支持，用MAC的小伙伴再也不用遗憾了…

看下我生成的效果。

https://live.csdn.net/v/460345

简单介绍下如何使用

上传一段人物视频和你要生成人物说话的音频。

点击处理视频等待视频生成

https://live.csdn.net/v/460346

批量模式的使用也相同，支持上传多个文件。

批量模式下音频数量一定要和视频数量保持一致，如果缺少是会报错的。

配置需求

WIN

WindowsN卡需8G显存

如果整合包运行报错，需要安装cuda12.4

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

MAC Apple Silicon M1/M2/M3/M4 芯片

8G内存

这里MAC用户需注意📢

针对MAC版本我增加了运行模式，两者的区别在于所需要的内存、处理的速度不同。

默认是cpu执行，考虑到有低内存的小伙伴，该模式下8G内存就能跑，但是速度较慢。

MPS针对16G内存以及以上小伙伴，推荐选择该模式，可以达到一个较快的处理速度。

一些问题

该项目目前只在英文数据集上训练过，所以中文效果比较差，但是还是可以用的，没到完全不能看的地步。

关于中文效果不好，可以通过使用中文数据集来训练解决。目前syncnet可以在4090显卡上进行训练，unet则需要50G显存…

别的没啥啦，简单、好用。干就完事了！

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘：
https://pan.quark.cn/s/90d2784bc502

度度度盘:
https://pan.baidu.com/s/1HwN1k6v-975uLfI0d8N_zQ?pwd=gewd

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

查看全文

http://www.kler.cn/a/516547.html

设计模式Python版单例模式

c#的tabControl控件实现自定义标签颜色

【SpringBoot实现xss防御】

期权帮|在股指期货中超过持仓限额怎么办？

【Redis】持久化机制

【JVM】垃圾收集器详解

解决CentOS9系统下Zabbix 7.2图形中文字符乱码问题

4_高并发内存池项目_高并发池内存释放设计_ThreadCache/CentralCache/PageCache回收并释放内存

人工智能技术在低空经济产业的应用

MyBatis-Plus之BaseMapper

关于为什么java中nextInt()和nextLine()不能混用 | nextInt()和nextInt()之类的可以一起用

设计模式Python版简单工厂模式

OpenEuler学习笔记（十）：用OpenEuler搭建web服务器

【MCU】DFU、IAP、OTA

cursor重构谷粒商城05——docker容器化技术快速入门【番外篇】

Mac 查看 Java SDK 和 Android SDK 的路径

输入网址到网页显示，发生了什么--讲述

linux静态库+嵌套makefile

【深度学习】自动微分

python学opencv|读取图像（四十三）使用cv2.bitwise_and()函数实现图像按位与运算

配置需求

WIN

MAC

一些问题

整合包获取

相关文章：