Paper Reading：《TTS Synthesis with Bidirectional LSTM based Recurrent Neural Networks》

论文信息

作者：Yuchen Fan, Yao Qian, Fenglong Xie, Frank K. Soong
单位：上海交通大学，MSRA
会议：INTERSPEECH
发表日期： 2014
论文链接：https://mazsola.iit.uni-miskolc.hu/~czap/letoltes/IS14/IS2014/PDF/AUTHOR/IS140552.PDF

采用双向LSTM单元的RNN能够捕捉参数式语音合成中一个语音句子中的任意两时刻的相关性。

LSTM（Long Short Term Memory）的结构如下图所示。LSTM能够解决传统RNN中的梯度消失问题。
LSTM
下图是双向RNN的结构，其能够访问前向和后向的上下文。
Bidirectional RNN

深层双向LSTM是深层双向RNN和LSTM的结合。

下图是基于DBLSTM-RNN的语音合成系统框图。
基于RNN的语音合成系统框图

基于DBLSTM-RNN的语音合成系统中，丰富的上下文作为输入特征，包括二值特征（例如音子标记、词性标记等）和数值特征（例如短语中词的数目、当前帧在当前音子的位置）；输出特征就是声学特征，例如谱包络、基频。输入特征和输出特征是通过训练好的HMM做时间上帧级别的对齐。

在RNN的训练过程中，训练的准则是最小化输出特征和目标之间的均方根误差。BPTT（Back-propagation through time）是常用的算法。

在合成阶段，输入文本首先通过文本分析转换成输入特征向量，然后输入特征向量通过训练好的DBLSTM-RNN映射到输出特征向量。