基于深层神经网络的语音合成

简介

随着深度学习在各个领域取得了优异的性能，例如计算机视觉、自然语言处理领域。深度学习也被应用到语音合成中，并取得了不错的效果。本文就简单介绍基于深层神经网络的语音合成。

深层置信网络（Deep Neural Network，DBN）是概率生成模型，其中包含了多个隐层。

基于DBN的语音合成系统框图

深层神经网络（Deep Neural Network，DNN）是一种前馈神经网络，除了输入层和输出层，包含多个隐层。

基于DNN的语音合成系统框图

循环神经网络（Recurrent Neural Network，RNN）包含循环连接，可以获取输入序列任意时刻的信息。

基于RNN的语音合成系统框图

S.-Y. Kang, X.-J. Qian, and H. Meng, “Multi-distribution deep belief network for speech synthesis,” in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Pro- cessing (ICASSP), 2013, pp. 8012–8016.
H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” in Proc. IEEE Int. Conf. Acoustics, Speech and Sig- nal Processing (ICASSP), 2013, pp. 7962–7966.
Y. C. Fan, Y. Qian, F. L. Xie, F. K. Soong. TTS synthesis with bidirectional LSTM based recurrent neural networks.[C]. Interspeech. 2014, pp. 1964–1968.

#语音合成 #机器学习

基于深层神经网络的语音合成

http://zhaoshuaijiang.com/2016/04/21/DeepNeuralNetworkBasedSpeechSynthesis/

作者

shuaijiang

发布于

2016年4月21日

许可协议