端到端语音识别基础入门

传统与端到端语音识别框架

基础课程

课程网址:http://www.speech.zone/courses/
这是爱丁堡大学的一名很有名气的语音方向的教授Simon King将他的授课内容分享出来的网站,里面的内容都是关于语音,丰富而且很清晰明了,即便有语音基础的同学学习一边也会受益匪浅。
如果没有语音基础,建议从语音处理基础开始课程,了解语音信号、音素等,然后再进一步到语音识别,包括特征工作,例如MFCC特征、filterBank特征,以及具体的算法。

传统语音识别技术(2009年)

这一时期的语音识别主要是基于统计模型建模,其中隐马尔可夫模型大获成功。

  • An Overview of Modern Speech Recognition[An Overview of Modern Speech Recognition]
  • 虽然名为’modern’,但是现在已经确实为’conventional’
  • 详细介绍了传统语音识别框架中的声学模型、语言模型、解码,以及语音识别的应用。

端到端语音识别技术

目前端到端语音识别主要有基于CTC的方法、基于Attention的方法,以及结合二者的多任务学习方法。

End-to-end ASR Tutorial

  • Interspeech 2018_ Tutorial E2E Speech Recognition[pdf]
  • 这是Google的关于端到端语音识别的tutorial,可以从宏观上观察端到端语音识别的发展,以及不同方法的优劣。

CTC

  • Connectionist Temporal Classification Labelling Unsegmented Sequence Data with Recurrent Neural Networks[pdf]
  • deep speech [pdf]
  • deep speech2[pdf]
  • Supervised Sequence Labelling with Recurrent Neural Networks[pdf] 介绍CTC部分主要是在第7章,需要重点看下。

RNN-T

RNN-T全称是Recurrent Neural Network Transducer,是在CTC的基础上改进的。
CTC的缺点是它没有考虑输出之间的依赖,RNN-T则在CTC模型的Encoder基础上,又加入了一个将之前时刻的输出作为输入的RNN(Prediction Network),
将Prediction Network输出与Encoder的输出共同作为一个joint network的输入,得到输出logits通过softmax layer得到最终输出的概率。

  • Sequence Transduction with Recurrent Neural Networks[pdf]
    RNN-T Architecture

Attention

  • Attention-Based Models for Speech Recognition[pdf]
  • Listen, Attend and Spell[pdf] 这一篇算是Attention开启之作。

Joint CTC/Attention

  • ESPnet 实现了Hybrid CTC/attention based end-to-end ASR [github]
  • JOINT CTC-ATTENTION BASED END-TO-END SPEECH RECOGNITION USING MULTI-TASK LEARNING[pdf]
  • Hybrid CTC-Attention Architecture for End-to-End Speech Recognition[pdf]

Conformer

  • Conformer: Convolution-augmented Transformer for Speech Recognition[pdf]