目前从事语音识别、语音合成工作,努力向大牛们看齐,像蜗牛一步一步向上慢慢爬。希望在语音领域做出一点成绩,让这个世界因为我,哪怕而有一点点的不同。
基本信息
- 姓名:shuaijiang
- 研究方向:语音合成、语音识别、自然语言处理
- 职业追求:语音改变世界
- Email:zhaoshuaijiang8(at)gmail.com
- 个人主页:http://www.zhaoshuaijiang.com
- github主页:https://github.com/shuaijiang/
- Resume: shuaijiang’s resume
- 坐标:北京
教育经历
- 2009-2013,北京邮电大学,智能科学与技术
- 2013-2016,北京大学,言语听觉中心
项目经历
智能家居语音交互:打造完成“小海智家”智能家居产品。从零搭建智能家居语音识别能力,针对环境中的噪声、混响等复杂声学情况,针对高频命令控制的query,分别提出解决方案,实现高精度、低延迟的语音识别。
车载语音识别与交互:实现网约车全程录音语音识别能力。针对车载环境中的噪声、混响等复杂情况,通过数据仿真提升声学鲁棒性,通过引入端到端提升上下文建模能力。车载语音识别精度相对提升约50%。
端到端语音识别建模单元的研究:对于CTC、Attention这两类端到端的方法,分别对比了音素、音节、字不同尺度建模单元的性能;实验发现了一些有价值的结果,对不同条件下的语音识别应用有借鉴意义。发表论文
端到端语音识别系统的搭建与落地:基于Transformer框架搭建端到端的语音识别,将多任务学习应用到模型训练,联合Attention与CTC,提升系统训练的鲁棒性,系统达到了较高的性能;并且部署上线,落地到业务。
大数据条件下基于神经网络的语音合成及在明星音合成中的应用:实现多个百度地图导航播报明星音。在大规模语音数据条件下(几十甚至上百小时数据),完成神经网络模型训练。通过模型自适应等技术,实现明星音极小数据量条件下的高质量语音合成。
面向语音合成的数据清洗:语音合成对数据质量要求很高,面对海量数据,人工筛选更加不现实。利用语音识别技术识别语音数据并将识别结果与原始数据标注比对,计算相似度得分,将得分小于阈值的数据过滤。
基于深层神经网络的语音合成:利用深层循环神经网络实现从文本特征到语音声学特征的映射,取代了传统基于HMM的语音合成架构中的决策树和高斯模型,大幅提高了声学模型性能。
基于MGE的语音合成: 基于HMM的参数语音合成中,将模型训练准则由最大似然准则(MLE) 改为最小生成误差准则(MGE),提高了声学模型性能。
开源项目
- Athena Github
论文发表
- Zou W, Jiang D, Zhao S, et al. Comparable study of modeling units for end-to-end mandarin speech recognition[C]//2018 11th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2018: 369-373.pdf
- Luo N, Jiang D, Zhao S, et al. Towards end-to-end code-switching speech recognition[J]. arXiv preprint arXiv:1810.13091, 2018. pdf
- Guo T, Wen C, Jiang D, et al. DiDiSpeech: A Large Scale Mandarin Speech Corpus[J]. arXiv preprint arXiv:2010.09275, 2020. pdf
- Chen G, Chai S, Wang G, et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio[J]. arXiv preprint arXiv:2106.06909, 2021. pdf
- Tang Z, Wang D, Xu Y, et al. KeSpeech: An Open Source Speech Dataset of Mandarin and Its Eight Subdialects[J]. 2021.pdf
我的公开课
兴趣爱好
- 参加并完成了2014年的北京马拉松
赞赏
- 我的成长离不开大家的支持
- 扫一扫,谢谢!