shuaijiang's blog

大模型时代的Audio Tokenizer总结与思考

大模型时代的 Audio Tokenizer 总结与思考写在最前面：访问我的知乎同款文章背景大语言模型拉开了大模型时代的序幕。大语言模型的核心机制是对文本序列建模：通过预测下一个词或字，实现对语言结构和语义的理解与生成。由于文字已经是高度抽象的、符号化的表达，适合直接建模。随着大模型能力的拓展，多模态融合逐渐成为研究热点。在众多模态中，音频是最重要、最常见的模态之一，广泛出现在语音识别、合成、

7月 25 2025

#大模型 #多模态 #Tokenizer #audio codec

语音大模型概述

写在最前面：访问我的知乎同款文章背景介绍语音大模型是什么？2024年5月，OpenAI的GPT-4o发布，自然流畅的人机对话、强大的语音理解与多样化的语音回复、极低的延迟（0.3秒，与人类相当）让人印象深刻。这使得研究者们重拾了对语音交互的热情，而且由于大语言模型的加持，语音交互的能力边界大幅提升。理想的语音大模型像人一样，应该具备：高质量语音理解（听）与回复（说）、多轮对话、低延迟、实时对话。

12月 23 2024

#llm #speech

大模型整理（large language models survey）

基座大模型GPT系列2022年底，ChatGPT开启了大模型时代的序章。 GPT-4 Technical Report:具备更强的推理能力，且能够融合图像信息。 InstructGPT ChatGPT: ChatGPT是InstructGPT的姊妹模型，只是在数据收集和基座模型上有轻微差异。 LLaMALLaMA只使用开源数据预训练，在较小的模型参数下取得了相近的效果。LLaMA 拥有7B,

6月 9 2023

#llm

从0到1组装自己的台式机

明确自己的需求不同的需求对配置的侧重是不同的。普通办公：侧重平衡。娱乐：侧重显卡。重度办公：侧重内存。专业开发：侧重堆配置。购买必要配件普通办公以下这套方案是2021年为了日常办公而采取的方案。主要使用场景是在公司日常办公以及连接开发机进行代码开发，所以并不需要很高的配置，只需要较大的内存即可。 CPU(¥779.00)：AMD 锐龙3 3100 (https://item.jd.

1月 7 2023

#计算机

语音识别概述

引言语音识别定义语音识别，亦称自动语音识别（Automatic Speech Recognition，ASR)或语音文本转换（Speech to Text, STT），是一种将语音转为文本的技术。当前的语音识别一般均特指大词汇量连续语音识别。语音识别应用语音识别有着广泛的应用，按照使用场景的不同，可以分为以下几类：语音输入：语音输入法、语音搜索等。语音助手：手机、音箱、穿戴设备上的语音助手

3月 29 2022

#语音识别

Deep Learning Book

无监督学习算法监督学习算法随机梯度下降随机梯度下降的核心是期望。所以可以用小规模的样本去估计梯度，这样就可以用minibatch的方式去计算梯度、更新模型。构建机器学习算法深度学习算法的配方：特定的数据集：代价函数：代价函数至少含有一项使学习过程进行统计估计的成分。代价函数也可能还有附加项，如正则化。优化过程：非线性模型要求选择一个迭代数据优化过程，如梯度下降。模型促使深度学习发展

2月 10 2022

#deeplearning

paper-interspeech2021

SESSION Tue-A-V-4 Self-Supervision and Semi-Supervision for Neural ASR Training subclass paper link Self-Supervision Improving Streaming Transformer Based ASR Under a Framework of Self-Supervised

10月 12 2021

#语音识别

鲁棒语音识别入门

CMU鲁棒语音识别简介鲁棒语音识别综述[Robust Speech Recognition] 介绍了鲁棒语音识别的重要性与巨大挑战介绍了多媒体技术介绍了CMU研究领域以及相关的开源工具远场语音识别综述远场语音识别综述[Distant Speech Recognition]

8月 15 2021

#语音识别

pip清华源

永久更新为清华源方法一编辑 vim ~/.pip/pip.conf ，修改为： 12[global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple 方法二pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple 临时更新为清华源pip install

11月 9 2020

#计算机

语音识别中的谱增强

论文信息 SpecAugment, GoogleBrain, paper: https://arxiv.org/pdf/1904.08779v1.pdf SpecAugment++, PKU, paper: https://arxiv.org/pdf/2103.16858.pdf There is no data like more data

3月 29 2020

#语音识别 #PaperReading