图书简介:
第1章 数字音视频技术概述 1
1.1 音视频技术的发展历程 1
1.2 数字音视频关键技术 2
1.2.1 数字音视频系统的处理流程 2
1.2.2 数字音视频关键技术 3
1.3 数字音视频技术的应用 9
1.4 技术挑战和发展趋势 11
习题1 13
第2章 人类发音及听觉基础 14
2.1 人类语音发音模型与特征 14
2.1.1 人类语音发音模型 14
2.1.2 语音信号的预处理 15
2.1.3 语音信号的特征 23
2.2 人类的听觉模型及特性分析 45
2.2.1 人类的听觉模型 45
2.2.2 声音的特性参数 46
2.2.3 人耳听觉特性分析 49
习题2 52
第3章 人类视觉及感知基础 53
3.1 视觉模型与特性 53
3.1.1 人眼构造 53
3.1.2 可见光谱 54
3.1.3 亮度与颜色视觉 55
3.1.4 视觉特性 56
3.2 立体视觉 58
3.3 彩色模型 60
3.3.1 三基色原理与相加混色 60
3.3.2 彩度学模型 61
3.3.3 工业彩色模型 63
3.3.4 HSI模型 64
习题3 67
第4章 经典语音与音频编码标准 68
4.1 语音与音频编码分类 68
4.2 波形编码—ADPCM 70
4.3 参数编码—线性预测编码 71
4.3.1 线性预测分析原理 71
4.3.2 线性预测分析原理和语音信号模型的关系 72
4.3.3 LPC-10编码 73
4.4 混合编码 74
4.4.1 自适应预测编码(APC) 74
4.4.2 CELP编码 79
4.5 感知音频编码原理 81
4.5.1 MPEG-1音频编码 81
4.5.2 MPEG-2音频编码 94
4.5.3 MPEG-4音频编码 98
习题4 100
第5章 新一代语音与音频编码标准 101
5.1 Opus编码 101
5.1.1 Opus编码原理 101
5.1.2 核心编码原理 102
5.2 EVS编码 105
5.2.1 EVS的编码模式与工作原理 105
5.2.2 EVS编码器的信号处理流程 105
5.3 AVS3-P10编码 109
5.3.1 实时通信语音编解码框架 109
5.3.2 AVS3-P10核心技术 110
5.3.3 典型应用场景与未来挑战 114
5.4 端到端神经网络编码 114
5.4.1 神经网络基础模型 115
5.4.2 Lyra架构解析 117
5.4.3 SoundStream架构解析 120
习题5 127
第6章 视频编码原理与标准 128
6.1 预测编码 128
6.1.1 帧内预测编码 128
6.1.2 帧间预测编码 131
6.1.3 运动估计 133
6.2 变换编码 137
6.2.1 整数DCT变换 138
6.2.2 现代视频编码标准中的变换技术 140
6.3 熵编码 140
6.3.1 CAVLC 141
6.3.2 CABAC 141
6.4 主流视频编码标准技术对比与核心差异 142
6.4.1 H.266/VVC 142
6.4.2 AV1 148
6.4.3 LCEVC 150
6.4.4 AVS3 151
6.4.5 主流视频编码对比 154
习题6 154
第7章 深度学习驱动的视觉技术 156
7.1 深度学习视觉基础 156
7.1.1 卷积神经网络架构与视频时序建模 156
7.1.2 视频数据预处理 157
7.1.3 经典模型 158
7.2 高级视觉任务 161
7.2.1 视频目标检测 161
7.2.2 视频语义分割 168
7.2.3 动作识别 171
7.2.4 视频生成 174
7.3 3D视觉 176
习题7 176
第8章 多模态音视频处理技术及应用 178
8.1 多模态技术应用概述 178
8.1.1 多模态感知 178
8.1.2 常见模态及其特征表示方式 179
8.1.3 多模态信息融合 180
8.2 音视频模态在语音增强中的应用 180
8.2.1 基于视觉线索的语音增强 181
8.2.2 基于卷积和门控注意力机制的两阶段视听语音增强算法 181
8.3 音视频模态在情绪识别中的应用 186
8.3.1 情绪识别中的多模态信号及识别模型 187
8.3.2 教育评估、心理健康监测与智能客服 188
8.3.3 基于教师引导的多模态融合对话情感识别网络 189
8.4 音视频模态在工业检测与安全生产中的应用 195
8.4.1 设备故障预警 195
8.4.2 矿山系统安全监控 196
8.4.3 基于音视频模态的输送带撕裂检测算法 197
习题8 198
第9章 AR/VR沉浸式交互系统 199
9.1 公共数据库 199
9.1.1 全景视频 199
9.1.2 点云数据 200
9.2 空间感知与定位 204
9.2.1 全景投影转换 204
9.2.2 视觉定位 206
9.2.3 多传感器融合 209
9.3 沉浸式媒体压缩与传输 215
9.3.1 全景视频编码 215
9.3.2 空间音频压缩 219
9.3.3 点云压缩 220
9.4 沉浸式显示与音频呈现 223
9.4.1 近眼显示技术 223
9.4.2 光场显示技术 224
9.4.3 沉浸式音频 225
9.5 沉浸式交互系统应用 225
9.5.1 工业AR巡检系统 226
9.5.2 VR全景视频传输系统 227
习题9 229
第10章 数字音视频技术开发实践与工具 230
10.1 多媒体处理工具FFmpeg 230
10.1.1 FFmpeg下载安装 230
10.1.2 FFmpeg转码实战(命令行) 232
10.1.3 FFmpeg流媒体推拉实战(命令行) 233
10.1.4 FFmpeg转码实战(Python) 235
10.1.5 FFmpeg流媒体推拉实战(Python) 236
10.2 AI端部署 237
10.2.1 数字识别模型搭建 237
10.2.2 Fibo AI Stack模型转化 239
10.2.3 数字识别模型部署 242
10.3 开源框架—OpenCV和GStreamer 244
10.3.1 OpenCV安装 244
10.3.2 OpenCV模块介绍 244
10.3.3 OpenCV视频简单操作 245
10.3.4 OpenCV人脸识别案例 247
10.3.5 GStreamer的相关组件 253
10.3.6 GStreamer管道设计简单案例 254
10.3.7 OpenCV+GStreamer实现人脸识别 256
习题10 262
参考文献 263
展开
当短视频平台的视听浪潮席卷全球,当元宇宙中的虚拟演唱会震撼上演,数字技术正在悄然重塑人类视听体验,数字音视频技术也正成为连接虚拟与现实、跨越时空界限的关键纽带。本书以培养复合型技术人才为目标,聚焦数字音视频领域的前沿动态与实践需求,通过系统化的知识架构与创新性的内容设计,为读者搭建起通往技术殿堂的桥梁。
本书的知识体系呈现“基础理论→核心技术→系统实践”三位一体的特色,形成环环相扣的知识链条。在基础理论部分,深入剖析数字音视频技术的发展脉络,分析其底层运行逻辑,并前瞻行业面临的机遇与挑战;通过深入分析人类发音及听觉、人类视觉及感知原理,解析人体生理如何与人类感知相契合。在核心技术部分,系统梳理从经典语音与音频编码标准到深度学习驱动的视觉技术、多模态音视频处理技术的完整体系,涵盖MPEG系列、AVS3等主流编码标准,以及神经网络、三维视觉、多模态处理等前沿领域;在系统实践部分,通过AR/VR沉浸式交互系统开发、FFmpeg实战、AI端部署案例等内容,将理论知识转化为可落地的技术成果。
每章精心设计的习题与Python实现案例,既能巩固所学知识,又能激发读者主动思考与动手探索,实现从理论到实践的完美跨越,以培养学生探索技术应用的边界,为我国音视频技术的发展贡献力量。
全书共10章,第1章是数字音视频技术概论,第2章是人类发音及听觉基础,第3章是人类视觉及感知基础,第4章是经典语音与音频编码标准,第5章是新一代语音与音频编码标准、第6章是视频编码原理与标准,第7章是深度学习驱动的视觉技术,第8章是多模态音视频处理技术及应用,第9章是AR/VR沉浸式交互系统,第10章是数字音视频技术开发实践与工具。本书内容全面,重点突出,原理阐述深入浅出,注重理论与实际应用的结合,可读性强。本书可以作为高等院校电子信息工程、通信工程、自动化、计算机技术与应用等专业高年级本科生相关课程的教材,也可供从事音频信号处理研究的研究生和科研人员参考。
本书由贾海蓉教授担任主编,李付江高级实验师、吴泽林博士担任副主编,焦江丽博士、陈宏涛博士参编。其中,第1、2、4、5章由贾海蓉编写,第3章由焦江丽编写,第6、10章由李付江编写,第7、8章由吴泽林编写,第9章由陈宏涛编写。全书由贾海蓉完成校稿、统稿。在本书编写过程中,特别是Python程序调试过程中,得到了太原理工大学电子信息工程学院数字音视频技术研究中心一些硕士生和博士生的帮助,在此表示衷心感谢。
本书配有电子课件和Python程序,读者可登录华信教育资源网(www.hxedu.com.cn)免费下载,也可到“山西省精品资源共享课程”网站上获取更丰富的学习资源。本书中出现过的专业术语缩写英汉对照和程序索引可扫描下面的二维码查看。
由于水平有限,书中难免存在错误之处,敬请读者批评指正。
展开