Audiocraft 是一个使用深度学习进行音频处理和生成的库,集成了最先进的 EnCodec 音频压缩器/分词器,以及 AudioGen 和 MusicGen 两种 AI 生成模型。
VALL-E 是微软研究院开发的一种用于文本到语音合成(TTS)的语言建模方法。它通过从现成的神经音频编解码模型中派生出的离散代码来训练神经编解码语言模型,并把TTS视为一种条件性语言建模任务,而不是像以往工作那样作为连续信号回归问题处理。
天工 SkyMusic 是一款基于天工 3.0 模型架构的 AI 音乐生成大模型,能够根据歌词、风格和情感生成高质量的双声道立体声歌曲。
Coqui TTS 是 Coqui-ai 团队精心打造的一款基于深度学习的文本转语音项目。 它以其开源性和强大功能在 TTS 领域崭露头角。
FastSpeech2 是微软提出的一个快速、高质量的端到端文本转语音(TTS)模型,是 FastSpeech 的改进版本,特别适合于实时语音播报、智能客服等场景。
VITS 是一种高表现力语音合成模型,结合了变分推理、标准化流和对抗训练。它是一个完全端到端的TTS模型,使用预先训练好的语音编码器将文本转化为语音,并且是直接从文本到语音波形的转换,无需额外的中间步骤或特征提取。
SpeechT5 是一个基于 Transformer 架构的语音技术平台,提供语音合成、识别、情感分析等多种功能。
轻量级语音识别框架,支持离线部署,适合嵌入式设备和低算力场景。
PaddleSpeech 是百度飞桨推出的一款开源语音工具包,旨在提供一站式的语音处理解决方案。
FunASR 是由阿里巴巴达摩院开源的语音识别工具包,包括在大规模工业语料库上训练的模型,提供语音识别、语音活动检测、标点恢复等多种功能。
Audiocraft 是一个使用深度学习进行音频处理和生成的库,集成了最先进的 EnCodec 音频压缩器/分词器,以及 AudioGen 和 MusicGen 两种 AI 生成模型。