传统与端到端语音识别框架
传统的语音识别框架[Automatic Speech Recognition]
端到端语音识别框架[Machine Learning Yearning]
语音识别,亦称自动语音识别(Automatic Speech Recognition,ASR)或语音文本转换(Speech to Text, STT),
是一种将语音转为文本的技术。当前的语音识别一般均特指大词汇量连续语音识别。
语音识别有着广泛的应用,按照使用场景的不同,可以分为以下几类:
根据应用场景对实时性的要求高低,可以分为:
根据系统实现架构,可以分为
随机梯度下降的核心是期望。所以可以用小规模的样本去估计梯度,这样就可以用minibatch的方式去计算梯度、更新模型。
深度学习算法的配方:
前馈网络克服了线形网络的局限,是一种高效的非线性函数近似。
现代前馈网络的思想仍然使用反向传播算法和梯度下降方法。主要的性能提升来自于
subclass | paper | link |
---|---|---|
Self-Supervision | Improving Streaming Transformer Based ASR Under a Framework of Self-Supervised Learning |
鲁棒语音识别综述[Robust Speech Recognition]
编辑 vim ~/.pip/pip.conf ,修改为:
1 | [global] |
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
更新清华源往往需要使用最新的pippip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip -U
主流的序列转换模型一般都是基于循环神经网络或者卷积神经网络来做的,包含编码器(encoder)、解码器(decoder),通过注意力机制连接编码器和解码器取得了最好的效果。
本文提出了一种简单有效的网络架构,即Transformer。
语言模型预训练对于提升很多自然语言处理任务有大帮助,这些任务包括句子级别任务例如自然语言推理、释义)、单词符号级别任务(例如命名实体识别、问答)。有两种策略将预训练的语言表示应用到这些任务上:基于特征的策略和微调优化的策略。这篇文章改进了微调优化的策略提出了BERT方法(Bidirectional Encoder Representations from Transformers)。