Audiocraft智能音频和音乐生成工具部署及使用
1、概述
Facebook开源了一款名为AudioCraft的AI音频和音乐生成工具。
该工具可以直接从文本描述和参考音乐生成高质量的音频和音乐。AudioCraft包含MusicGen、AudioGen和EnCodec三个模型,分别实现音乐生成、音频生成和自定义音频模型构建。
2、项目地址
https://github.com/facebookresearch/audiocraft.git
3、部署流程
(1)使用conda创建python环境
conda create -n audiocraft python==3.9
(2)下载代码ECS中
(3)配置环境
进入audiocraft根目录,依次执行:
安装torch2.1.0版本
python -m pip install 'torch==2.1.0'
安装setuptools wheel
python -m pip install setuptools wheel
安装Audiocraft 包
python -m pip install -U audiocraft
在 Python 中从当前目录安装一个包的“可编辑”(editable)模式。
python -m pip install -e .
安装当前目录下的 Python 包,并以可编辑模式安装,同时包括名为 wm的额外功能。
python -m pip install -e '.[wm]'
安装ffmpeg
conda install "ffmpeg<5" -c conda-forge
安装主要的依赖包
pip install -r requirements.txt
(4)修改audiocraft配置文件
进入/audiocraft/demos文件夹
cd demos
编辑musicgen_app.py中的listen和server_port参数
vim musicgen_app.py
在右下角显示的482行,的--listen下的default修改成default='0.0.0.0',494行的--server_port下的default修改成自己的业务端口,修改好后直接输入:wq 即可
4、运行Audiocraft
运行命令:
python musicgen_app.py
注意:prompts中填入音乐相关的参数,不要描绘画面(那是给SD用的)。
后台执行日志见:
可以看到首次执行时会下载相关的模型。
5、报错处理
错误解决参考文档:解决libcusparse.so.12: undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12-CSDN博客