传统与端到端语音识别框架
传统的语音识别框架[Automatic Speech Recognition]
端到端语音识别框架[Machine Learning Yearning]
2022年底,ChatGPT开启了大模型时代的序章。
LLaMA只使用开源数据预训练,在较小的模型参数下取得了相近的效果。
LLaMA 拥有7B, 13B, 33B and 65B 4种模型参数,模型开源但不可商用。
不同的需求对配置的侧重是不同的。
以下这套方案是2021年为了日常办公而采取的方案。
主要使用场景是在公司日常办公以及连接开发机进行代码开发,所以并不需要很高的配置,只需要较大的内存即可。
注意:Intel和AMD对应不同的主板,购买的时候一定要注意。
以下这套方案是2021年为了在家办公采用的方案。
偶尔会看视频、做视频、调试AI模型。所以采用了较小的机箱,升级了GPU。
注意:升级GPU要考虑电源的功率,600W正好可以支持RTX3060,无需升级电源了。
以下这套方案是2023年初为了给家里长辈日常办公采用的方案。
考虑到长辈的认知度和对速度的需求,采用了Intel i5和32GB 3600内存。
这方面参考了哔哩哔哩上的安装视频,大家可以自行搜索下。
注意:安装CPU的时候一定要小心再小心,CPU针脚很多且脆弱。
语音识别,亦称自动语音识别(Automatic Speech Recognition,ASR)或语音文本转换(Speech to Text, STT),
是一种将语音转为文本的技术。当前的语音识别一般均特指大词汇量连续语音识别。
语音识别有着广泛的应用,按照使用场景的不同,可以分为以下几类:
根据应用场景对实时性的要求高低,可以分为:
根据系统实现架构,可以分为
随机梯度下降的核心是期望。所以可以用小规模的样本去估计梯度,这样就可以用minibatch的方式去计算梯度、更新模型。
深度学习算法的配方:
前馈网络克服了线形网络的局限,是一种高效的非线性函数近似。
现代前馈网络的思想仍然使用反向传播算法和梯度下降方法。主要的性能提升来自于
subclass | paper | link |
---|---|---|
Self-Supervision | Improving Streaming Transformer Based ASR Under a Framework of Self-Supervised Learning |
鲁棒语音识别综述[Robust Speech Recognition]
编辑 vim ~/.pip/pip.conf ,修改为:
1 | [global] |
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
更新清华源往往需要使用最新的pippip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip -U