MuseTalk-高质量唇形同步数字人整合包

腾讯音乐娱乐集团Lyra实验室开发的革命性技术,实现实时、高质量的唇形同步。支持多语言输入,适用于视频配音、虚拟主播和教育等多个领域。加入数字人口型同步的新纪元,提升观众的视听体验。

AI大部分项目需要CUDA和C++桌面开发组件支持,请点击这里按指导安装。对显卡要求也高,非Nvidia独立显卡电脑,不建议涉足AI项目。最后就是AI项目对中文不友好,所以无论文件名,素材名和路径名一律使用英文。

ShotEasy (1).png

项目介绍:

MuseTalk 是由腾讯团队开发的先进技术,它是一个实时的音频驱动唇部同步模型。该模型能够根据输入的音频信号,自动调整数字人物的面部图像,使其唇形与音频内容高度同步。这样,观众就能看到数字人物口型与声音完美匹配的效果。MuseTalk 特别适用于256 x 256像素的面部区域,且支持中文、英文和日文等多种语言输入。在NVIDIA Tesla V100显卡上,MuseTalk 能够实现超过每秒30帧的实时推理速度。此外,用户还可以通过调整面部区域的中心点,进一步优化生成效果。

使用方法:

把压缩包解压后,双击start.bat文件即可,或者右键点击选择打开。

配置要求:

操作系统:Windows 10/11 64位

显卡:12G或以上显存的英伟达(NVIDIA)显卡

MuseTalk的功能特点:

MuseTalk是一个实时高质量音频驱动的口型同步模型。

根据输入音频修改未见过的脸部,脸部区域的大小为256 x 256。

支持中文、英文、日文等多种语言的音频。

支持 NVIDIA Tesla V100 上 30fps+ 的实时推理。

支持修改面部区域中心点建议,这显着影响生成结果。

检查点可用在 HDTF 数据集上进行训练。

转载请说明出处 内容投诉内容投诉
月光墟 » MuseTalk-高质量唇形同步数字人整合包

月光墟,一个令你着迷,能淘金的网站!

返回首页 about us