基于单元挑选的波形拼接式语音合成

背景介绍

自20世纪50年代，开始出现波形拼接式的语音合成。

1992年，ATR的v-talk系统首次证明了自动单元挑选的有效性。

基于单元挑选的波形拼接式语音合成的基本假设是，通过从语音数据库中挑选相近的子词单元，可以合成新的听起来自然的句子。

单元挑选

单元挑选的准则

被挑选的单元，需要具备以下几点要求：

较低的拼接失真
较低的韵律失真
具有泛化能力
具有可训练性

现实的挑战是，如何去平衡这些准则。

可选择的单元

上下文无关的音素

把每个音素看做单元，不考虑前后相邻的音素。这样具有较好泛化能力，能够生成任意的词或者句子。假如一种语言有N个音素，只需要N个单元，这是很容易训练的。其缺点是，利用这样的单元生成的语音不连贯。
双音素

双音素是可训练的、具有泛化能力，并且相比于上下文无关的音素，其合成的语音有更好的质量。
上下文相关的音素
子音素单元
音节
词和短语

单元挑选的代价

基于单元挑选的语音合成包括两种基本的技术操作。第一，目标代价，用来衡量数据库中的候选单元与目标单元的匹配程度。第二，连接代价，用来衡量两个被挑选的单元间的连接平滑程度。

由于是从原始的语音库中挑选单元，然后拼接生成语音，基于单元挑选的波形拼接式语音合成保持了原始语音自然的特点，具有较高的自然度。

参考资料

Huang X, Acero A, Hon H W. Spoken language processing[M]. Englewood Cliffs: Prentice Hall, 2001.

#语音合成

基于单元挑选的波形拼接式语音合成

http://zhaoshuaijiang.com/2014/03/05/unit_selection_synthesis/

作者

shuaijiang

发布于

2014年3月5日

许可协议

基于HMM的参数式语音合成上一篇

北京的雪下一篇