华信教育资源网
声音信号处理与项目实践
丛   书   名: 浙江省普通本科高校“十四五”重点教材
作   译   者:应娜 出 版 日 期:2024-06-01
出   版   社:电子工业出版社 维   护   人:孟宇 
书   代   号:G0487520 I S B N:9787121487521

图书简介:

本书系统介绍了声音信号处理的背景知识、发展历史以及研究现状与趋势,并详细阐述了基础原理、处理方法、实践应用、新成果与新技术。 全书共9章。第1章绪论,第2章声音信号简介,第3章短时时域处理技术,第4章短时傅里叶变换,第5章声音信号的线性预测,第6章语音编码,第7章声音合成与转换,第8章语音识别,第9章基于深度学习技术的声音技术应用。 本书体系完整,结构严谨,系统性强,原理阐述透彻,联系实际应用,凸显理论与实践结合,包含丰富的实践案例。本书可作为高等院校信号与信息处理、通信与电子工程、模式识别与人工智能等专业高年级本科生及研究生教材,也可供该领域的科研及工程技术人员参考。
定价 69.8
您的专属联系人更多
关注 评论(2) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书系统介绍了声音信号处理的背景知识、发展历史以及研究现状与趋势,并详细阐述了基础原理、处理方法、实践应用、新成果与新技术。 全书共9章。第1章绪论,第2章声音信号简介,第3章短时时域处理技术,第4章短时傅里叶变换,第5章声音信号的线性预测,第6章语音编码,第7章声音合成与转换,第8章语音识别,第9章基于深度学习技术的声音技术应用。 本书体系完整,结构严谨,系统性强,原理阐述透彻,联系实际应用,凸显理论与实践结合,包含丰富的实践案例。本书可作为高等院校信号与信息处理、通信与电子工程、模式识别与人工智能等专业高年级本科生及研究生教材,也可供该领域的科研及工程技术人员参考。

    图书详情

    ISBN:9787121487521
    开 本:16(185*260)
    页 数:248
    字 数:387

    本书目录

    目    录
    第1章  绪论  	1
    1.1  声音信号处理的研究内容	1
    1.2  声音信号处理的发展历史	2
    1.2.1  语音编码算法的发展历史	3
    1.2.2  语音识别算法的发展历史	4
    1.2.3  语音去噪及增强算法的发展历史	5
    1.2.4  语音合成转换等其他算法的发展历史	7
    1.2.5  基于语音和视觉信息的多模态融合方法	11
    1.3  声音效果评价	14
    1.3.1  主观评价方法	14
    1.3.2  客观评价方法	15
    练习题	16
    第2章  声音信号简介	17
    2.1  人类语音信号的产生	17
    2.2  语音信号的基本特征	18
    2.3  声音的特征提取	19
    2.3.1  手工声音特征	19
    2.3.2  深度语音情感特征	19
    2.4  人类的听觉感知	20
    2.5  语音数据库	22
    2.5.1  语音识别数据集	22
    2.5.2  语音情感数据库	23
    2.5.3  多模态情感数据集	24
    练习题	26
    第3章  短时时域处理技术	27
    3.1  语音信号的短时处理方法	27
    3.1.1  语音端点检测	27
    3.1.2  预加重	28
    3.1.3  分帧与加窗	28
    3.2  短时能量和短时平均幅度	30
    3.3  短时过零率	33
    3.4  短时自相关函数	35
    3.5  短时时域处理技术案例:基音提取	35
    3.5.1  基音检测估计方法1:三电平削波法	36
    3.5.2  基音检测估计方法2:SHR谐波检测法	40
    练习题	42
    第4章  短时傅里叶变换	44
    4.1  短时傅里叶变换的定义	44
    4.2  短时傅里叶变换的理解	45
    4.3  短时傅里叶变换的实现	49
    4.4  语音短时傅里叶变换的应用案例	50
    4.4.1  梅尔频率倒谱系数的提取和应用	50
    4.4.2  声音去噪算法的实现	57
    4.4.3  声音信号熵的提取应用	62
    练习题	69
    第5章  声音信号的线性预测编码	70
    5.1  线性预测基本原理	70
    5.2  线性预测的解析算法	73
    5.3  线性预测的应用案例	76
    5.3.1  基音检测估计	77
    5.3.2  共振峰估计	81
    练习题	85
    第6章  语音编码	86
    6.1  脉冲编码调制	87
    6.1.1  均匀量化脉冲编码调制	87
    6.1.2  非均匀量化脉冲编码调制	87
    6.1.3  自适应量化脉冲编码调制	88
    6.2  差分脉冲编码	89
    6.2.1  差分脉冲编码原理	89
    6.2.2  自适应差分脉冲编码	91
    6.3  增量调制	95
    6.3.1  增量调制原理	95
    6.3.2  自适应增量调制原理	95
    6.4  基于线性预测编码的声码器	96
    6.4.1  LPC-10声码器	96
    6.4.2  码激励线性预测编码	102
    练习题	107
    第7章  声音合成与转换	109
    7.1  语音合成方法	109
    7.1.1  参数合成方法	110
    7.1.2  波形合成方法	115
    7.2  汉语基于音节的规则合成方法	120
    7.2.1  韵律规则合成	121
    7.2.2  多音节协同发音规则合成	129
    7.2.3  轻声音节规则合成	130
    7.3  语音转换方法	131
    7.3.1  语音转换系统的总体框架	131
    7.3.2  语音转换常见的特征参数	132
    7.4  语音转换评价指标	134
    7.4.1  客观评价	135
    7.4.2  主观评价	135
    7.5  语音转换应用案例	136
    7.5.1  平行语音转换方法	136
    7.6  非平行语音转换应用案例	139
    7.6.1  循环生成对抗网络	139
    7.6.2  星型生成对抗网络	140
    7.6.3  变分自动编码器	141
    7.6.4  自适应实例规范化	141
    7.6.5  激活引导和自适应实例归一化	142
    练习题	150
    第8章  语音识别	151
    8.1  采用矢量量化的说话人识别	151
    8.1.1  矢量量化的原理	151
    8.1.2  矢量量化的训练	152
    8.1.3  矢量量化说话人识别的实现	153
    8.2  采用动态时间规整的孤立词识别	154
    8.3  基于隐马尔可夫模型的语音(语句)识别	159
    8.3.1  HMM模型	159
    8.3.2  HMM的概率求解	161
    8.3.3  HMM的解码	164
    8.3.4  HMM的训练	166
    8.3.5  HMM-GMM模型	171
    8.3.6  基于HMM的语音识别应用案例	173
    练习题	180
    第9章  基于深度学习模型的声音技术应用	183
    9.1  深度学习网络基础	183
    9.1.1  深度学习网络基本结构	183
    9.1.2  深度学习网络的训练	185
    9.1.3  卷积神经网络	187
    9.1.4  循环神经网络	191
    9.1.5  注意力机制	197
    9.2  基于深度学习的声音去噪算法	198
    9.2.1  基于深度神经网络幅度谱估计的深度学习声音去噪算法	198
    9.2.2  基于多尺度时频卷积网络的多通道声音去噪	201
    9.3  基于深度学习的语音识别应用案例	205
    9.3.1  基于循环神经网络-连续时序分类的语音识别	206
    9.3.2  基于卷积神经网络的语音识别	209
    9.3.3  基于Transformer的语音识别	211
    9.4  基于ResNet的语音情感识别应用案例	220
    9.5  声音与呼吸信号联合识别应用案例	225
    9.6  声音与人脸联合识别应用案例	228
    练习题	231
    参考文献  	232
    
    展开

    前     言

    前    言
    党的二十大报告明确提出:“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。”在这一背景下,高层次人才培养需要以习近平新时代中国特色社会主义思想为指导,结合国家“十四五”规划和科技发展规划的要求,积极对接国家的战略部署,致力于为创新建设储备人才和贡献力量。
    在这个飞速发展的信息时代,声音信号处理技术如同一颗璀璨的明珠,在信息科学领域中的价值和应用前景正不断被挖掘与扩展。从我们日常生活中司空见惯的电话通话,到复杂的自动语音识别系统、问答系统,从基础的音频编辑软件到高端的语音合成技术——声音信号处理技术正悄然改变着我们的交流方式,推动着人工智能技术的边界不断拓展。
    本书旨在为广大读者提供一本全面、深入且易于理解的声音信号处理技术。我们力求通过简明扼要的语言,深入浅出地介绍声音信号处理的基础理论、关键技术及其广泛的应用实践,以帮助读者系统地掌握该领域的核心知识与技术。此外,本书还特别提供了相应的程序和代码示例,旨在帮助读者更加实际和高效地理解和运用声音信号处理技术,从而更快地步入这一令人兴奋的技术领域。
    本书通过精心编排的章节内容,将引领读者逐步深入探索声音信号处理的奥秘。
    在第1章“绪论”中,我们首先介绍声音信号处理的研究内容,包括但不限于语音编码、语音识别、语音去噪、增强算法以及基于多模态信息的融合方法等;接着,我们还梳理了声音信号处理技术的发展脉络,让读者能够对该领域的历史演进有一个全面的了解。同时,还探讨声音效果的评价方法,为后续章节中技术的应用和优化提供评价标准。
    从第2章到第9章,本书逐渐深入地讨论声音信号处理的各个方面。
    随着内容讲解的深入,从第2章到第5章,本书逐步对声音信号处理各个方面展开深度探讨。第2章“声音信号简介”从最基本的人类语音信号的产生讲起,一步步引导读者理解声音的特征提取和人类的听觉感知,为后续的学习奠定坚实的基础。紧接着,从第3章到第5章,我们逐一详述声音信号处理的核心技术,包括短时时域处理技术、短时傅里叶变换、线性预测等,这些技术是声音信号处理领域的基石,对于深入理解声音信号的处理机理至关重要。
    在第6章到第9章中,本书重点介绍了语音编码、声音合成与转换、语音识别和基于深度学习模型的声音技术应用。其中,这些内容既包括了传统的处理技术,也引入了技术前沿的内容,尤其是随着深度学习技术的快速发展,声音信号处理领域也迎来了前所未有的机遇和挑战。第9章的内容包含了多模态信号在深度学习领域的应用。通过这几章的学习,读者将能够洞察声音信号处理技术的最新发展趋势和挑战,以及它们在实际应用中的表现和潜力。
    总而言之,本书的目标是为读者搭建一个全方位、系统化的声音信号处理学习和研究平台。我们希望,无论读者的背景是学生、教师还是科研工作者,都能在本书中找到有价值的知识和灵感。在这个信息技术日新月异的时代,让我们共同踏上探索声音信号处理无限可能的旅程,开启一段充满发现和创造的奇妙之旅。
    本书力求反映作者多年从事声音处理教学和研究的经验和体会,可以作为高等院校信号与信息处理、通信与电子工程、模式识别与人工智能等专业高年级本科生及研究生的教材,也可以供该领域的科研及工程技术人员参考。
    我国信息科学学术带头人隆克平教授审阅了本书,提出了宝贵意见,在此向隆克平先生表示忠心的敬意与感谢!同时,感谢邹雨鉴、蒋银河、王金华、王旭贞、朱宸都、章子旭、金宏辉、闫铎文、杨曼、谈林涛等人所提供的帮助。
    由于声音信号处理的研究范围非常广泛,发展十分迅速,又涉及多个学科和前沿领域,受作者学术水平等多方面因素限制,本书还难免会存在问题和不足,敬请批评指正。
    
    编  者    
    2024年3月
    展开

    作者简介

    应娜,杭州电子科技大学通信工程学院副院长。负责通信工程学院教学工作,国家一流专业"通信工程专业”的负责人。负责《信息论与编码》、《随机信号原理》、《语音信号处理》、《认识实习》、《综合创新实践1/2/3》等课程。负责省级校企培养基地2项;负责省级一流课程2门;主持校级课程教改3项和核心课程建设1项;指导学生获得国家级、省级竞赛获奖多项,获得大唐杯、研究生电子设计大赛等优秀指导教师多项;获得校级优秀班主任、优秀指导教师多次。该教材获批浙江省普通本科高校"十四五”重点教材建设项目。
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网