SpeechT5 - APPMark

音频生成与处理

SpeechT5

SpeechT5 是一个基于 Transformer 架构的语音技术平台，提供语音合成、识别、情感分析等多种功能。

链接直达手机查看

快点收藏起来

SpeechT5 是一个基于 Transformer 架构的语音技术平台，提供语音合成、识别、情感分析等多种功能。

相关导航

VITS 是一种高表现力语音合成模型，结合了变分推理、标准化流和对抗训练。它是一个完全端到端的TTS模型，使用预先训练好的语音编码器将文本转化为语音，并且是直接从文本到语音波形的转换，无需额外的中间步骤或特征提取。

FunASR 是由阿里巴巴达摩院开源的语音识别工具包，包括在大规模工业语料库上训练的模型，提供语音识别、语音活动检测、标点恢复等多种功能。

FastSpeech2

FastSpeech2 是微软提出的一个快速、高质量的端到端文本转语音(TTS)模型，是 FastSpeech 的改进版本，特别适合于实时语音播报、智能客服等场景。