图书简介:
目 录
第1章 绪论 1
1.1 声音信号处理的研究内容 1
1.2 声音信号处理的发展历史 2
1.2.1 语音编码算法的发展历史 3
1.2.2 语音识别算法的发展历史 4
1.2.3 语音去噪及增强算法的发展历史 5
1.2.4 语音合成转换等其他算法的发展历史 7
1.2.5 基于语音和视觉信息的多模态融合方法 11
1.3 声音效果评价 14
1.3.1 主观评价方法 14
1.3.2 客观评价方法 15
练习题 16
第2章 声音信号简介 17
2.1 人类语音信号的产生 17
2.2 语音信号的基本特征 18
2.3 声音的特征提取 19
2.3.1 手工声音特征 19
2.3.2 深度语音情感特征 19
2.4 人类的听觉感知 20
2.5 语音数据库 22
2.5.1 语音识别数据集 22
2.5.2 语音情感数据库 23
2.5.3 多模态情感数据集 24
练习题 26
第3章 短时时域处理技术 27
3.1 语音信号的短时处理方法 27
3.1.1 语音端点检测 27
3.1.2 预加重 28
3.1.3 分帧与加窗 28
3.2 短时能量和短时平均幅度 30
3.3 短时过零率 33
3.4 短时自相关函数 35
3.5 短时时域处理技术案例:基音提取 35
3.5.1 基音检测估计方法1:三电平削波法 36
3.5.2 基音检测估计方法2:SHR谐波检测法 40
练习题 42
第4章 短时傅里叶变换 44
4.1 短时傅里叶变换的定义 44
4.2 短时傅里叶变换的理解 45
4.3 短时傅里叶变换的实现 49
4.4 语音短时傅里叶变换的应用案例 50
4.4.1 梅尔频率倒谱系数的提取和应用 50
4.4.2 声音去噪算法的实现 57
4.4.3 声音信号熵的提取应用 62
练习题 69
第5章 声音信号的线性预测编码 70
5.1 线性预测基本原理 70
5.2 线性预测的解析算法 73
5.3 线性预测的应用案例 76
5.3.1 基音检测估计 77
5.3.2 共振峰估计 81
练习题 85
第6章 语音编码 86
6.1 脉冲编码调制 87
6.1.1 均匀量化脉冲编码调制 87
6.1.2 非均匀量化脉冲编码调制 87
6.1.3 自适应量化脉冲编码调制 88
6.2 差分脉冲编码 89
6.2.1 差分脉冲编码原理 89
6.2.2 自适应差分脉冲编码 91
6.3 增量调制 95
6.3.1 增量调制原理 95
6.3.2 自适应增量调制原理 95
6.4 基于线性预测编码的声码器 96
6.4.1 LPC-10声码器 96
6.4.2 码激励线性预测编码 102
练习题 107
第7章 声音合成与转换 109
7.1 语音合成方法 109
7.1.1 参数合成方法 110
7.1.2 波形合成方法 115
7.2 汉语基于音节的规则合成方法 120
7.2.1 韵律规则合成 121
7.2.2 多音节协同发音规则合成 129
7.2.3 轻声音节规则合成 130
7.3 语音转换方法 131
7.3.1 语音转换系统的总体框架 131
7.3.2 语音转换常见的特征参数 132
7.4 语音转换评价指标 134
7.4.1 客观评价 135
7.4.2 主观评价 135
7.5 语音转换应用案例 136
7.5.1 平行语音转换方法 136
7.6 非平行语音转换应用案例 139
7.6.1 循环生成对抗网络 139
7.6.2 星型生成对抗网络 140
7.6.3 变分自动编码器 141
7.6.4 自适应实例规范化 141
7.6.5 激活引导和自适应实例归一化 142
练习题 150
第8章 语音识别 151
8.1 采用矢量量化的说话人识别 151
8.1.1 矢量量化的原理 151
8.1.2 矢量量化的训练 152
8.1.3 矢量量化说话人识别的实现 153
8.2 采用动态时间规整的孤立词识别 154
8.3 基于隐马尔可夫模型的语音(语句)识别 159
8.3.1 HMM模型 159
8.3.2 HMM的概率求解 161
8.3.3 HMM的解码 164
8.3.4 HMM的训练 166
8.3.5 HMM-GMM模型 171
8.3.6 基于HMM的语音识别应用案例 173
练习题 180
第9章 基于深度学习模型的声音技术应用 183
9.1 深度学习网络基础 183
9.1.1 深度学习网络基本结构 183
9.1.2 深度学习网络的训练 185
9.1.3 卷积神经网络 187
9.1.4 循环神经网络 191
9.1.5 注意力机制 197
9.2 基于深度学习的声音去噪算法 198
9.2.1 基于深度神经网络幅度谱估计的深度学习声音去噪算法 198
9.2.2 基于多尺度时频卷积网络的多通道声音去噪 201
9.3 基于深度学习的语音识别应用案例 205
9.3.1 基于循环神经网络-连续时序分类的语音识别 206
9.3.2 基于卷积神经网络的语音识别 209
9.3.3 基于Transformer的语音识别 211
9.4 基于ResNet的语音情感识别应用案例 220
9.5 声音与呼吸信号联合识别应用案例 225
9.6 声音与人脸联合识别应用案例 228
练习题 231
参考文献 232
展开
前 言
党的二十大报告明确提出:“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。”在这一背景下,高层次人才培养需要以习近平新时代中国特色社会主义思想为指导,结合国家“十四五”规划和科技发展规划的要求,积极对接国家的战略部署,致力于为创新建设储备人才和贡献力量。
在这个飞速发展的信息时代,声音信号处理技术如同一颗璀璨的明珠,在信息科学领域中的价值和应用前景正不断被挖掘与扩展。从我们日常生活中司空见惯的电话通话,到复杂的自动语音识别系统、问答系统,从基础的音频编辑软件到高端的语音合成技术——声音信号处理技术正悄然改变着我们的交流方式,推动着人工智能技术的边界不断拓展。
本书旨在为广大读者提供一本全面、深入且易于理解的声音信号处理技术。我们力求通过简明扼要的语言,深入浅出地介绍声音信号处理的基础理论、关键技术及其广泛的应用实践,以帮助读者系统地掌握该领域的核心知识与技术。此外,本书还特别提供了相应的程序和代码示例,旨在帮助读者更加实际和高效地理解和运用声音信号处理技术,从而更快地步入这一令人兴奋的技术领域。
本书通过精心编排的章节内容,将引领读者逐步深入探索声音信号处理的奥秘。
在第1章“绪论”中,我们首先介绍声音信号处理的研究内容,包括但不限于语音编码、语音识别、语音去噪、增强算法以及基于多模态信息的融合方法等;接着,我们还梳理了声音信号处理技术的发展脉络,让读者能够对该领域的历史演进有一个全面的了解。同时,还探讨声音效果的评价方法,为后续章节中技术的应用和优化提供评价标准。
从第2章到第9章,本书逐渐深入地讨论声音信号处理的各个方面。
随着内容讲解的深入,从第2章到第5章,本书逐步对声音信号处理各个方面展开深度探讨。第2章“声音信号简介”从最基本的人类语音信号的产生讲起,一步步引导读者理解声音的特征提取和人类的听觉感知,为后续的学习奠定坚实的基础。紧接着,从第3章到第5章,我们逐一详述声音信号处理的核心技术,包括短时时域处理技术、短时傅里叶变换、线性预测等,这些技术是声音信号处理领域的基石,对于深入理解声音信号的处理机理至关重要。
在第6章到第9章中,本书重点介绍了语音编码、声音合成与转换、语音识别和基于深度学习模型的声音技术应用。其中,这些内容既包括了传统的处理技术,也引入了技术前沿的内容,尤其是随着深度学习技术的快速发展,声音信号处理领域也迎来了前所未有的机遇和挑战。第9章的内容包含了多模态信号在深度学习领域的应用。通过这几章的学习,读者将能够洞察声音信号处理技术的最新发展趋势和挑战,以及它们在实际应用中的表现和潜力。
总而言之,本书的目标是为读者搭建一个全方位、系统化的声音信号处理学习和研究平台。我们希望,无论读者的背景是学生、教师还是科研工作者,都能在本书中找到有价值的知识和灵感。在这个信息技术日新月异的时代,让我们共同踏上探索声音信号处理无限可能的旅程,开启一段充满发现和创造的奇妙之旅。
本书力求反映作者多年从事声音处理教学和研究的经验和体会,可以作为高等院校信号与信息处理、通信与电子工程、模式识别与人工智能等专业高年级本科生及研究生的教材,也可以供该领域的科研及工程技术人员参考。
我国信息科学学术带头人隆克平教授审阅了本书,提出了宝贵意见,在此向隆克平先生表示忠心的敬意与感谢!同时,感谢邹雨鉴、蒋银河、王金华、王旭贞、朱宸都、章子旭、金宏辉、闫铎文、杨曼、谈林涛等人所提供的帮助。
由于声音信号处理的研究范围非常广泛,发展十分迅速,又涉及多个学科和前沿领域,受作者学术水平等多方面因素限制,本书还难免会存在问题和不足,敬请批评指正。
编 者
2024年3月
展开