华信教育资源网
数字音视频技术及Python实现
丛   书   名: 新工科建设●电子信息类精品教材
作   译   者:贾海蓉 出 版 日 期:2026-02-01
出   版   社:电子工业出版社 维   护   人:凌毅 
书   代   号:G0522160 I S B N:9787121522161

图书简介:

本书系统地阐述数字音视频技术的原理、标准、技术和应用,同时给出部分内容对应的Python实现程序。全书共10章,第1~3章介绍基本理论,包括数字音视频技术概述、人类发音及听觉基础、人类视觉及感知基础;第4~6章介绍音视频标准,包括经典语音与音频编码标准、新一代语音与音频编码标准、视频编码原理与标准;第7、8章介绍基于深度学习的技术,包括深度学习驱动的视觉技术、多模态音视频处理技术及应用;第9、10章介绍系统实践,包括AR/VR沉浸式交互系统、数字音视频技术开发实践与工具。本书内容全面,重点突出,原理阐述深入浅出,注重理论与实际应用的结合,可读性强。本书可以作为高等院校电子信息工程、通信工程、自动化、计算机技术与应用等专业高年级本科生相关课程的教材,也可供从事音视频信号处理研究的研究生和科研人员参考。
定价 59.8
您的专属联系人更多
关注 评论(0) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书系统地阐述数字音视频技术的原理、标准、技术和应用,同时给出部分内容对应的Python实现程序。全书共10章,第1~3章介绍基本理论,包括数字音视频技术概述、人类发音及听觉基础、人类视觉及感知基础;第4~6章介绍音视频标准,包括经典语音与音频编码标准、新一代语音与音频编码标准、视频编码原理与标准;第7、8章介绍基于深度学习的技术,包括深度学习驱动的视觉技术、多模态音视频处理技术及应用;第9、10章介绍系统实践,包括AR/VR沉浸式交互系统、数字音视频技术开发实践与工具。本书内容全面,重点突出,原理阐述深入浅出,注重理论与实际应用的结合,可读性强。本书可以作为高等院校电子信息工程、通信工程、自动化、计算机技术与应用等专业高年级本科生相关课程的教材,也可供从事音视频信号处理研究的研究生和科研人员参考。

    图书详情

    ISBN:9787121522161
    开 本:16(185*260)
    页 数:272
    字 数:480

    本书目录

    第1章  数字音视频技术概述	1
    1.1  音视频技术的发展历程	1
    1.2  数字音视频关键技术	2
    1.2.1  数字音视频系统的处理流程	2
    1.2.2  数字音视频关键技术	3
    1.3  数字音视频技术的应用	9
    1.4  技术挑战和发展趋势	11
    习题1	13
    第2章  人类发音及听觉基础	14
    2.1  人类语音发音模型与特征	14
    2.1.1  人类语音发音模型	14
    2.1.2  语音信号的预处理	15
    2.1.3  语音信号的特征	23
    2.2  人类的听觉模型及特性分析	45
    2.2.1  人类的听觉模型	45
    2.2.2  声音的特性参数	46
    2.2.3  人耳听觉特性分析	49
    习题2	52
    第3章  人类视觉及感知基础	53
    3.1  视觉模型与特性	53
    3.1.1  人眼构造	53
    3.1.2  可见光谱	54
    3.1.3  亮度与颜色视觉	55
    3.1.4  视觉特性	56
    3.2  立体视觉	58
    3.3  彩色模型	60
    3.3.1  三基色原理与相加混色	60
    3.3.2  彩度学模型	61
    3.3.3  工业彩色模型	63
    3.3.4  HSI模型	64
    习题3	67
    第4章  经典语音与音频编码标准	68
    4.1  语音与音频编码分类	68
    4.2  波形编码—ADPCM	70
    4.3  参数编码—线性预测编码	71
    4.3.1  线性预测分析原理	71
    4.3.2  线性预测分析原理和语音信号模型的关系	72
    4.3.3  LPC-10编码	73
    4.4  混合编码	74
    4.4.1  自适应预测编码(APC)	74
    4.4.2  CELP编码	79
    4.5  感知音频编码原理	81
    4.5.1  MPEG-1音频编码	81
    4.5.2  MPEG-2音频编码	94
    4.5.3  MPEG-4音频编码	98
    习题4	100
    第5章  新一代语音与音频编码标准	101
    5.1  Opus编码	101
    5.1.1  Opus编码原理	101
    5.1.2  核心编码原理	102
    5.2  EVS编码	105
    5.2.1  EVS的编码模式与工作原理	105
    5.2.2  EVS编码器的信号处理流程	105
    5.3  AVS3-P10编码	109
    5.3.1  实时通信语音编解码框架	109
    5.3.2  AVS3-P10核心技术	110
    5.3.3  典型应用场景与未来挑战	114
    5.4  端到端神经网络编码	114
    5.4.1  神经网络基础模型	115
    5.4.2  Lyra架构解析	117
    5.4.3  SoundStream架构解析	120
    习题5	127
    第6章  视频编码原理与标准	128
    6.1  预测编码	128
    6.1.1  帧内预测编码	128
    6.1.2  帧间预测编码	131
    6.1.3  运动估计	133
    6.2  变换编码	137
    6.2.1  整数DCT变换	138
    6.2.2  现代视频编码标准中的变换技术	140
    6.3  熵编码	140
    6.3.1  CAVLC	141
    6.3.2  CABAC	141
    6.4  主流视频编码标准技术对比与核心差异	142
    6.4.1  H.266/VVC	142
    6.4.2  AV1	148
    6.4.3  LCEVC	150
    6.4.4  AVS3	151
    6.4.5  主流视频编码对比	154
    习题6	154
    第7章  深度学习驱动的视觉技术	156
    7.1  深度学习视觉基础	156
    7.1.1  卷积神经网络架构与视频时序建模	156
    7.1.2  视频数据预处理	157
    7.1.3  经典模型	158
    7.2  高级视觉任务	161
    7.2.1  视频目标检测	161
    7.2.2  视频语义分割	168
    7.2.3  动作识别	171
    7.2.4  视频生成	174
    7.3  3D视觉	176
    习题7	176
    第8章  多模态音视频处理技术及应用	178
    8.1  多模态技术应用概述	178
    8.1.1  多模态感知	178
    8.1.2  常见模态及其特征表示方式	179
    8.1.3  多模态信息融合	180
    8.2  音视频模态在语音增强中的应用	180
    8.2.1  基于视觉线索的语音增强	181
    8.2.2  基于卷积和门控注意力机制的两阶段视听语音增强算法	181
    8.3  音视频模态在情绪识别中的应用	186
    8.3.1  情绪识别中的多模态信号及识别模型	187
    8.3.2  教育评估、心理健康监测与智能客服	188
    8.3.3  基于教师引导的多模态融合对话情感识别网络	189
    8.4  音视频模态在工业检测与安全生产中的应用	195
    8.4.1  设备故障预警	195
    8.4.2  矿山系统安全监控	196
    8.4.3  基于音视频模态的输送带撕裂检测算法	197
    习题8	198
    第9章  AR/VR沉浸式交互系统	199
    9.1  公共数据库	199
    9.1.1  全景视频	199
    9.1.2  点云数据	200
    9.2  空间感知与定位	204
    9.2.1  全景投影转换	204
    9.2.2  视觉定位	206
    9.2.3  多传感器融合	209
    9.3  沉浸式媒体压缩与传输	215
    9.3.1  全景视频编码	215
    9.3.2  空间音频压缩	219
    9.3.3  点云压缩	220
    9.4  沉浸式显示与音频呈现	223
    9.4.1  近眼显示技术	223
    9.4.2  光场显示技术	224
    9.4.3  沉浸式音频	225
    9.5  沉浸式交互系统应用	225
    9.5.1  工业AR巡检系统	226
    9.5.2  VR全景视频传输系统	227
    习题9	229
    第10章  数字音视频技术开发实践与工具	230
    10.1  多媒体处理工具FFmpeg	230
    10.1.1  FFmpeg下载安装	230
    10.1.2  FFmpeg转码实战(命令行)	232
    10.1.3  FFmpeg流媒体推拉实战(命令行)	233
    10.1.4  FFmpeg转码实战(Python)	235
    10.1.5  FFmpeg流媒体推拉实战(Python)	236
    10.2  AI端部署	237
    10.2.1  数字识别模型搭建	237
    10.2.2  Fibo AI Stack模型转化	239
    10.2.3  数字识别模型部署	242
    10.3  开源框架—OpenCV和GStreamer	244
    10.3.1  OpenCV安装	244
    10.3.2  OpenCV模块介绍	244
    10.3.3  OpenCV视频简单操作	245
    10.3.4  OpenCV人脸识别案例	247
    10.3.5  GStreamer的相关组件	253
    10.3.6  GStreamer管道设计简单案例	254
    10.3.7  OpenCV+GStreamer实现人脸识别	256
    习题10	262
    参考文献	263
    展开

    前     言

    当短视频平台的视听浪潮席卷全球,当元宇宙中的虚拟演唱会震撼上演,数字技术正在悄然重塑人类视听体验,数字音视频技术也正成为连接虚拟与现实、跨越时空界限的关键纽带。本书以培养复合型技术人才为目标,聚焦数字音视频领域的前沿动态与实践需求,通过系统化的知识架构与创新性的内容设计,为读者搭建起通往技术殿堂的桥梁。
    本书的知识体系呈现“基础理论→核心技术→系统实践”三位一体的特色,形成环环相扣的知识链条。在基础理论部分,深入剖析数字音视频技术的发展脉络,分析其底层运行逻辑,并前瞻行业面临的机遇与挑战;通过深入分析人类发音及听觉、人类视觉及感知原理,解析人体生理如何与人类感知相契合。在核心技术部分,系统梳理从经典语音与音频编码标准到深度学习驱动的视觉技术、多模态音视频处理技术的完整体系,涵盖MPEG系列、AVS3等主流编码标准,以及神经网络、三维视觉、多模态处理等前沿领域;在系统实践部分,通过AR/VR沉浸式交互系统开发、FFmpeg实战、AI端部署案例等内容,将理论知识转化为可落地的技术成果。
    每章精心设计的习题与Python实现案例,既能巩固所学知识,又能激发读者主动思考与动手探索,实现从理论到实践的完美跨越,以培养学生探索技术应用的边界,为我国音视频技术的发展贡献力量。
    全书共10章,第1章是数字音视频技术概论,第2章是人类发音及听觉基础,第3章是人类视觉及感知基础,第4章是经典语音与音频编码标准,第5章是新一代语音与音频编码标准、第6章是视频编码原理与标准,第7章是深度学习驱动的视觉技术,第8章是多模态音视频处理技术及应用,第9章是AR/VR沉浸式交互系统,第10章是数字音视频技术开发实践与工具。本书内容全面,重点突出,原理阐述深入浅出,注重理论与实际应用的结合,可读性强。本书可以作为高等院校电子信息工程、通信工程、自动化、计算机技术与应用等专业高年级本科生相关课程的教材,也可供从事音频信号处理研究的研究生和科研人员参考。
    本书由贾海蓉教授担任主编,李付江高级实验师、吴泽林博士担任副主编,焦江丽博士、陈宏涛博士参编。其中,第1、2、4、5章由贾海蓉编写,第3章由焦江丽编写,第6、10章由李付江编写,第7、8章由吴泽林编写,第9章由陈宏涛编写。全书由贾海蓉完成校稿、统稿。在本书编写过程中,特别是Python程序调试过程中,得到了太原理工大学电子信息工程学院数字音视频技术研究中心一些硕士生和博士生的帮助,在此表示衷心感谢。
    本书配有电子课件和Python程序,读者可登录华信教育资源网(www.hxedu.com.cn)免费下载,也可到“山西省精品资源共享课程”网站上获取更丰富的学习资源。本书中出现过的专业术语缩写英汉对照和程序索引可扫描下面的二维码查看。
    由于水平有限,书中难免存在错误之处,敬请读者批评指正。
    
    展开

    作者简介

    贾海蓉,太原理工大学教授,硕士生导师,CCF专业会员,计算机工程、计算机工程与应用等期刊审稿人,主要从事语音信号处理与人工智能研究,担任并参与国家级"数字音视频技术”课程建设。
  • 样 章 试 读
    本书暂无样章试读!
  • 图 书 评 价 我要评论
华信教育资源网