基于单元挑选的波形拼接式语音合成

背景介绍

自20世纪50年代,开始出现波形拼接式的语音合成。

1992年,ATR的v-talk系统首次证明了自动单元挑选的有效性。

基于单元挑选的波形拼接式语音合成的基本假设是,通过从语音数据库中挑选相近的子词单元,可以合成新的听起来自然的句子。

单元挑选

单元挑选的准则

被挑选的单元,需要具备以下几点要求:

  • 较低的拼接失真
  • 较低的韵律失真
  • 具有泛化能力
  • 具有可训练性

现实的挑战是,如何去平衡这些准则。

可选择的单元

  1. 上下文无关的音素

    把每个音素看做单元,不考虑前后相邻的音素。这样具有较好泛化能力,能够生成任意的词或者句子。假如一种语言有N个音素,只需要N个单元,这是很容易训练的。其缺点是,利用这样的单元生成的语音不连贯。
  2. 双音素

    双音素是可训练的、具有泛化能力,并且相比于上下文无关的音素,其合成的语音有更好的质量。
  3. 上下文相关的音素
  4. 子音素单元
  5. 音节
  6. 词和短语

单元挑选的代价

基于单元挑选的语音合成包括两种基本的技术操作。第一,目标代价,用来衡量数据库中的候选单元与目标单元的匹配程度。第二,连接代价,用来衡量两个被挑选的单元间的连接平滑程度。

由于是从原始的语音库中挑选单元,然后拼接生成语音,基于单元挑选的波形拼接式语音合成保持了原始语音自然的特点,具有较高的自然度。

参考资料

  1. Huang X, Acero A, Hon H W. Spoken language processing[M]. Englewood Cliffs: Prentice Hall, 2001.