Audiocraft 是一个使用深度学习进行音频处理和生成的库,集成了最先进的 EnCodec 音频压缩器/分词器,以及 AudioGen 和 MusicGen 两种 AI 生成模型。
SpeechT5 是一个基于 Transformer 架构的语音技术平台,提供语音合成、识别、情感分析等多种功能。
Magenta 是由 google 组织的一个项目,专门进行基于机器学习的人工智能艺术方面的研究,包括自动作曲、音频生成、图画生成等方面。
FunASR 是由阿里巴巴达摩院开源的语音识别工具包,包括在大规模工业语料库上训练的模型,提供语音识别、语音活动检测、标点恢复等多种功能。
NaturalReader 是一款文本转语音软件,基于 AI 技术将文本文档转换成自然流畅的语音输出。
Suno是一款基于人工智能的音乐创作平台,允许用户通过输入简单的提示词(如歌词、风格、主题等)生成数字音乐文件。
VALL-E 是微软研究院开发的一种用于文本到语音合成(TTS)的语言建模方法。它通过从现成的神经音频编解码模型中派生出的离散代码来训练神经编解码语言模型,并把TTS视为一种条件性语言建模任务,而不是像以往工作那样作为连续信号回归问题处理。
SpeechT5 是一个基于 Transformer 架构的语音技术平台,提供语音合成、识别、情感分析等多种功能。