FireRedTTS是一个基于大语言模型的开源文本到语音(TTS)框架,旨在满足个性化和多样化的语音合成需求。该系统通过高质量数据集和语义感知架构生成高保真语音信号,适用于配音、聊天机器人等多种应用场景,提供零样本语音克隆和可控类人语音合成能力。
AI大部分项目需要CUDA和C++桌面开发组件支持,请点击这里按指导安装。对显卡要求也高,非Nvidia独立显卡电脑,不建议涉足AI项目。最后就是AI项目对中文不友好,所以无论文件名,素材名和路径名一律使用英文。
项目介绍:
FireRedTTS是由小红书技术团队开发的一个开源AI语音合成系统,它由数据处理、基础系统和下游应用三部分组成。这个系统能够将文本转换为高质量的语音输出,同时保持语音的自然度和个性化特征。
数据处理:FireRedTTS的数据处理部分负责将大量的原始音频数据转化为大规模的高质量语音合成数据集,这些数据集包含丰富的标注信息,覆盖广泛的内容、说话风格和音色。
基础系统:基础系统部分采用了基于语言模型的架构,语音信号被压缩为离散的语义标记,然后通过语义感知的语音标记器进行处理,从而根据提示文本和音频生成相应的语音信号。系统还包括一个两阶段的波形生成器,用于将语义标记解码为高保真的波形信号。
下游应用:FireRedTTS展示了两个典型的应用场景:配音和聊天机器人。在配音应用中,FireRedTTS能够以零样本的方式克隆目标语音,适用于用户生成内容(UGC)场景。在专业用户生成内容(PUGC)场景中,通过少量样本的微调,FireRedTTS能够适应工作室级别的表达性语音角色。在聊天机器人应用中,FireRedTTS能够通过指令微调实现可控的类人语音合成,包括非正式风格、副语言行为和情感,从而更好地服务于口语聊天机器人。
使用方法:
把压缩包解压后,双击start.bat文件即可,或者右键点击选择打开。
配置要求:
操作系统:Windows 10/11 64位
显卡:8G或以上显存的英伟达(NVIDIA)显卡