目前从事语音识别、语音合成、多模态大模型工作,追求我的North Star:希望在语音领域做出一点成绩,让这个世界因为我,哪怕而有一点点的不同。

基本信息

教育经历

  • 2009-2013,北京邮电大学,智能科学与技术
  • 2013-2016,北京大学,言语听觉研究中心

项目经历

语音/语言大模型(2023~2024)

  • 语音大模型KE-Omni & 语音对话数据Ke-SpeechChat: 基于6万小时高质量合成对话数据,构建语音大模型,实现流式语音对话。arXiv|demo 模型框架文本对话生产流程 语音对话生产流程

  • 大模型数据能力构建:构建了数据读取、去重、清洗、过滤、挑选混合等相关能力,提升LLM效果。参加2024年Better-mixture算法大赛,荣获季军,技术报告大模型数据框架

  • 大模型评测能力构建:构建了涵盖通用能力、业务场景的评测体系,支持多种模型接入方式、多种评测指标,有效支撑模型的训练过程和落地指导。大模型评测框架

  • BelleWhisper语音识别: 基于Whisper优化中文语音识别能力,统一了不同采样率、离线在线识别、不同业务场景,并在业务上落地应用,字错误率相对下降约20%。开源模型belle-whisper-large-v3-zh-punct | 开源模型Belle-whisper-large-v3-turbo-zh
    BelleWhisper CER

语音识别(2018~2023)

  • 智能家居语音交互:打造完成贝壳“小海智家”智能家居产品。从零搭建智能家居语音识别能力,针对环境中的噪声、混响等复杂声学情况,针对高频命令控制的query,分别提出解决方案,实现高精度、低延迟的语音识别。

  • 车载语音识别与交互:实现滴滴全程录音语音识别能力。针对车载环境中的噪声、混响等复杂情况,通过数据仿真提升声学鲁棒性,通过引入端到端提升上下文建模能力。车载语音识别精度相对提升约50%。

  • 端到端语音识别研究与落地:对于CTC、Attention这两类端到端的方法,分别对比了音素、音节、字不同尺度建模单元的性能;实验发现了一些有价值的结果,对不同条件下的语音识别应用有借鉴意义并发表论文。基于Transformer框架搭建端到端的语音识别,将多任务学习应用到模型训练,联合Attention与CTC,提升系统训练的鲁棒性,系统达到了较高的性能;并且部署上线,落地到业务。

语音合成(2013~2017)

  • 基于神经网络的语音合成及在明星音合成中的应用:实现多个百度地图导航播报明星音。在大规模语音数据条件下(几十甚至上百小时数据),完成神经网络模型训练。通过模型自适应等技术,实现明星音极小数据量条件下的高质量语音合成。

  • 基于深层神经网络的语音合成:利用深层循环神经网络实现从文本特征到语音声学特征的映射,取代了传统基于HMM的语音合成架构中的决策树和高斯模型,大幅提高了声学模型性能。

  • 基于MGE的语音合成: 基于HMM的参数语音合成中,将模型训练准则由最大似然准则(MLE) 改为最小生成误差准则(MGE),提高了声学模型性能。

开源项目

  • Whisper-Finetune:基于Whisper的语音识别微调项目 Github
  • Athena:基于Transform的端到端语音识别项目 Github
  • Belle:语音/语言大模型项目 Github

论文发表

  • Advancing Speech Language Models by Scaling Supervised Fine-Tuning with Over 60,000 Hours of Synthetic Speech Dialogue Data.2024. arXiv
  • Technical Report: Competition Solution For BetterMixture[J], 2024. pdf
  • ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation. 2023. pdf
  • KeSpeech: An Open Source Speech Dataset of Mandarin and Its Eight Subdialects[J]. 2021. pdf
  • Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio[J]. arXiv preprint arXiv:2106.06909, 2021. pdf
  • DiDiSpeech: A Large Scale Mandarin Speech Corpus[J]. arXiv preprint arXiv:2010.09275, 2020. pdf
  • Towards end-to-end code-switching speech recognition[J]. arXiv preprint arXiv:1810.13091, 2018. pdf
  • Comparable study of modeling units for end-to-end mandarin speech recognition[C]//2018 11th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2018: 369-373.pdf

我的公开课

兴趣爱好

  • 参加并完成了2014年的北京马拉松
    北京马拉松

赞赏

  • 我的成长离不开大家的支持
  • 扫一扫,谢谢!

支付宝