语音大模型概述

背景介绍

语音大模型是什么?

2024年5月,OpenAI的GPT-4o发布,自然流畅的人机对话、强大的语音理解与多样化的语音回复、极低的延迟(0.3秒,与人类相当)让人印象深刻。
这使得研究者们重拾了对语音交互的热情,而且由于大语言模型的加持,语音交互的能力边界大幅提升。理想的语音大模型像人一样,应该具备:高质量语音理解(听)与回复(说)、多轮对话、低延迟、实时对话。
语音大模型(speech large language model, SpeechLLMs)亦有称之为语音对话模型(spoken dialogue models),本文统称之为语音大模型。

1
The fundamental definition of a spoken dialogue model refers to a dialogue system capable of generating intelligent verbal responses based on the input speech. 

上面是对语音大模型的一种定义,可以简单地定义为:和人一样能听会说的智能系统。

历史回顾

在大模型时代之前(Pre-LLM Stage),语音技术各个细分方向相对独立,包括语音识别、语音合成、语音增强、语音分离、声音事件监测、说话人识别等等。
随着深度学习的发展(Early-LLM Stage),语音技术开始进入预训练阶段,基于模型和大数据量的语音特征和表示。例如wav2vec、Hubert,大幅提升了模型效果。
进入大模型时代(SpeechLLM Stage),语音技术各个细分方向开始融合,更细分的任务融合成一个任务,例如声音复刻和语音合成融合为Zero-Shot TTS。语音技术开始走向“大一统”:语音大模型。
语音技术演进,图片参考A SURVEY ON SPEECH LARGE LANGUAGE MODELS

发展趋势

2022年之前,语音技术结合LLMs的工作开始萌芽。
2023年,紧跟LLMs的步伐,语音大模型相关工作开始涌现。
2024年,语音大模型相关研究更加深入,围绕高质量语音、全双工交互等热点难点。
语音大模型时间线,图片参考WavChat

技术路径

在大模型时代之前,实现一个人机语音对话系统是非常繁杂的,涉及多个模块:语音识别、意图识别、对话管理、对话生成、语音合成等模块。
传统人机语音交互

在大模型时代,使用LLMs取代意图识别、对话管理、对话生成等多个模块,让人机对话系统变得简单且更加强大。根据模型是否能够直接理解和生成语音,分为级联、端到端两种技术路径:

  • 级联(Cascaded): 语音识别(ASR)、LLM、语音合成(TTS)三部分级联构成。构建成本较低、各模块成熟且相对独立;但是能力潜力小、信息丢失(例如丢失情感信息)、延迟较大。典型例子有AudioGPT
  • 端到端(End-to-end): 一个模型实现语音的输入和输出。系统简单、能力(潜力)强、延迟低;构建成本较大、依赖大量的训练数据。典型例子有Moshi

下图是级联系统与端到端系统的对比,可以看到两种系统中也分别有两种不同的技术路径,从上到下从完全的级联到完全的端到端。
级联与端到端系统对比,图片参考WavChat

下表是OpenAI的语音模式,GPT-4o是端到端的方式,GPT-3.5和GPT-4都是级联的方式,无论是副语言信息的理解和多样化表达,还是整体的延迟,GPT-4o都大幅领先,使用体验提升明显。

Feature GPT-3.5 GPT-4 GPT-4o Moshi
Architecture ASR + GPT-3.5 + TTS ASR + GPT-4 + TTS A single end-to-end model A single end-to-end model
Acoustic Information × × √ (speaker, background, emotion…)
Expressive Audio Response × × √ (laughter, emotion, singing…) Multi emotions & styles
Latency 2.8s 5.4s 0.32s 0.23s average (minimum 0.16s)

模型

这部分先介绍语音大模型的一般模块组成,然后介绍几个典型的语音大模型。

模块组成

语音大模型一般由三个模块组成:

  • 语音编码器(Speech Tokenizer): 有两类典型的Tokenizer,一种是Whisper Encoder,连续空间表示语音;另一种是RVQ结构的Neural Codec Encoder,离散空间表示语音。
  • 大语言模型(Large Language Models): 各种语言模型均可。
  • 语音合成器(Token-to-Speech Synthesizer): 和上述Speech Tokenizer相对应,前者对应典型的合成器,例如HiFi-GAN等;后者对应Neural Codec Decoder。

语音大模型模块组成,图片参考Recent Advances in Speech Language Models: A Survey

SpeechGPT arXiv code

SpeechGPT是于2023年5月份,复旦大学提出来的语音大模型。

模块组成

Speech Tokenizer LLM Speech Detokenizer
Hubert LLaMA-13B unit based HiFi-GAN

模型框架

SpeechGPT模型框架

模型训练

  1. 阶段1:词表扩充&模态自适应。基于6万小时的无标注LibriLight语音数据。
  2. 阶段2:跨模态指令微调。训练数据包括1万小时GigaSpeech、3千小时CommonVoice、1千小时LibriSpeech。
  3. 阶段3:Chain-of-Modality Instruction Fine-Tuning。从moss-002-sft-data数据集中挑选的37,969条样本。

分析

  • SpeechGPT 是将文本和语音模态融合到LLMs的一次尝试,让LLMs具备了语音理解和生成能力。
  • 由于Chain-of-Modality的机制,SpeechGPT无法实现实时交互,只能是半双工交互。

LLaMA-Omni arXiv code

LLaMA-Omni 是中科院计算所于2024年9月份发布出来的语音大模型。
LLaMA-Omni用少量的数据和算力成本,构建了LLaMA的语音模态能力。

模块组成

Speech Tokenizer LLM Speech Detokenizer
whisper-large-v3 encoder LLaMA-3.1 unit base HiFi-GAN

模型框架

LLaMA-Omni模型框架

模型训练

LLaMA-Omni采用两阶段训练:

  1. 阶段1:基于语音指令,生成文本回复。Speech Adaptor、LLMs参与模型训练。
  2. 阶段2:基于语音指令,生成语音回复。LLMs、Speech Decoder参与模型训练。

分析

  • 基于Whisper Encoder融合语音模态,最大程度减少了对LLMs的影响,保持了LLMs本身的能力。较少的训练数据即可实现模型搭建。
  • 引入CTC、采用chunk机制合成语音,降低语音回复的延迟。
  • 虽然LLaMA-Omni有较低的延迟,但其本质仍是半双工交互方式,不支持打断。

Moshi arXiv code

Moshi由法国初创团队Kyutai开发的对标GPT-4o的语音交互模型,7月份发布,10月份公布了技术报告并开源了模型。
Moshi是一个多流的语音到语音的Transformer模型,支持全双工交互。

模块组成

Speech Tokenizer LLM Speech Detokenizer
Mimi Encoder (12.5Hz x 8 Codebooks) Helium-7B (As Temporal Transformer) & Depth Transformer (6 layers, d=1024, 16 heads) Mimi Decoder

模型框架

Moshi模型框架

上图是Moshi的模型框架,几个特点:

  • Multi-stream:用户语音输入、Moshi语音输出、内心独白。为自然语音交互做好了底层设计,可以同时听和说,支持用户打断。
  • Neural Codec:Mimi为了更低比特率、流式编解码、同时包含语义和声学信息,做了针对性设计。
  • RQ-Transformer:包含Temporal Transformer和Depth Transformer,TemporaryTransformer处理时间步S,DepthTransformer进一步扩展到多个流。这样,将O(S*K)计算复杂度(S为时间步,K为序列/多流个数)大约减少为O(S)个计算步。

Mimi是Neural Codec,输入24KHz音频,输出12.5Hz的8个Codec,每个取值范围2048,第一个是VQ从WavLM中蒸馏学习语义信息,其他的7个为RVQ。
Mimi框架

模型训练

  1. 阶段1:Helium-7B 语言模型预训练。基于大量的文本数据。
  2. 阶段2:Moshi预训练。单流建模,文本和语音模态对齐。基于Whisper转写的7百万小时弱监督预训练数据。
  3. 阶段3:Moshi后训练。扩展到多流建模,让模型具备同时听和说的能力。采用了2千小时的电话数据集Fisher,8KHz采样率升采样到24KHz。
  4. 阶段4:Moshi微调。基于170小时自然对话,学习具有语音交叠的实时对话能力。基于2万小时包含70种说话风格的单说话人合成数据,使得Moshi具备固定音色。
    值得一提的是,阶段3的训练,多流建模增加了Moshi的内心独白(Inner Monologue),也就是Moshi 生成语音相对应的文本,对应下图中Moshi stream的Text tokens。内心独白可以提升生成文本和语音的质量。
    Moshi多流建模

分析

  • Moshi对标GPT-4o,实现了多样化语音理解与生成的全双工语音交互。
  • Moshi的构建成本很高,需要大量的文本和语音数据,需要大量的算力。
  • Moshi的建模方式可以看做是一种‘原生多模态’的建模方式,相比于模态融合,其难度更高,还有很多值得探索。

GLM-4-Voice arXiv code

GLM-4-Voice是智谱于2024年10月发布、11月公布技术报告的端到端语音模型。
GLM-4-Voice可以理解中英文语音,进行实时语音对话,并改变生成语音的情感、风格。

模块组成

Speech Tokenizer LLM Speech Detokenizer
fine-tuned whisper-large-v3 with Quantizer (12.5Hz) GLM-4-9B-Base Flow Matching based on CosyVoice + Hifi-GAN vocoder

模型框架

GLM-4-Vocie模型框架

模型训练

  1. 预训练:文本预训练、语音-文本交替数据预训练,分别对应“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”两个任务。
  2. 对齐:输入用户语音,流式输出文本-语音交替内容,语音输出以文本输出为参照保证了回复内容的质量。

分析

  • GLM-4-Voice 通过语音-文本交替数据的预训练任务将语音模态和文本模态融入基座模型,这种方式对模态融合有很好的借鉴意义,具体细节可以他们的技术报告
  • GLM-4-Voice支持流式,为此对Whisper Encoder做了流式改造,标准卷积替换为因果卷积、双向注意力替换为因果注意力机制。
  • GLM-4-Voice在模型结构侧面没有做全双工(开源的模型),不能同时听和说,而是“半双工”模式。

KE-Omni arXiv model

KE-Omni是由贝壳语音团队于2024年12月发布的中英文语音大模型,在VoiceBench上取得优异成绩。
该工作构建了包含6万小时、4万多个说话人的高质量合成语音对话数据集KeSpeechChat,并基于该数据集将LLaMA能力扩展到语音模态。

模块组成

Speech Tokenizer LLM Speech Detokenizer
whisper-large-v3 encoder LLaMA-3.1 Transformer based duration predictor & Transformer based speech unit generator & unit base HiFi-GAN

模型框架

KE-Omni模型框架

文本对话构建(如下图):引入了大语言模型,对文本指令数据进行口语化的改写。
文本对话构建
语音对话构建(如下图):提出了一种构建虚拟说话人音库的方法,丰富说话人的多样性。基于CosyVoice合成指定说话人音色的语音对话。对合成的语音对话进行质量筛选过滤。
语音对话构建

分析

  • 该工作提出了大规模高质量语音对话构造方法,并基于数据集在不同的数据尺度上验证了语音大模型的效果。

进阶话题

  • 音频&音乐
  • 全双工交互
  • 多模态融合

参考文献


语音大模型概述
http://zhaoshuaijiang.com/2024/12/23/speech-llm/
作者
shuaijiang
发布于
2024年12月23日
许可协议