VideoReTalking是一个开源的AI项目,专注于通过音频驱动实现视频中人物嘴型的同步。该项目通过先进的机器学习技术,将视频中的嘴型与输入的音频精确匹配,即使在不同的情感表达下也能产生高质量且同步的输出视频。
AI大部分项目需要CUDA和C++桌面开发组件支持,请点击这里按指导安装。对显卡要求也高,非Nvidia独立显卡电脑,不建议涉足AI项目。最后就是AI项目对中文不友好,所以无论文件名,素材名和路径名一律使用英文。
VideoReTalking整体效果不如Musetalk,对中文支持较差。
项目介绍:
VideoReTalking是由西安电子科技大学、腾讯AI实验室和清华大学的研究人员共同开发的开源项目。该项目能够在真实世界中编辑讲话人的视频面部表情,根据输入的音频产生高质量且嘴型同步的输出视频。系统将这一目标分解为三个顺序任务:使用标准表情生成面部视频、音频驱动的嘴型同步、以及提高照片真实感的面部增强。所有这些步骤都采用了基于机器学习的方法,并且所有模块都可以在一个顺序的流程中处理,无需用户干预。
VideoReTalking的技术亮点包括:
能够处理不同情感下的面部表情,生成与输入音频同步的视频。
利用表情编辑网络根据相同的表达模板修改每一帧的表情,生成具有标准表情的视频。
通过唇形同步网络和身份感知面部增强网络提高合成面部的真实感。
支持从命令行或Web界面启动推理,方便用户测试和使用。
使用方法:
把压缩包解压后,双击start.bat文件即可,或者右键点击选择打开。
配置要求:
操作系统:Windows 10/11 64位
显卡:8G或以上显存的英伟达(NVIDIA)显卡