华信教育资源网
数字语音处理理论与应用
丛   书   名: 信息与通信技术
作   译   者:刘加等 出 版 日 期:2015-11-01
出   版   社:电子工业出版社 维   护   人:马岚 
书   代   号:G0275900 I S B N:9787121275906

图书简介:

本书向授课教师提供英文原版教辅(习题解答,PPT,改编者提供的PPT),具体申请方式请咨询te_service@phei.com.cn。本书是作者继1978年出版的经典教材《语音信号的数字处理》之后的又一著作,全书除有简练精辟的基础知识介绍外,系统讲解了近30年来语音信号处理的新理论、新方法和在应用上的新进展。全书共14章,分四部分:第一部分介绍语音信号处理基础知识,主要包括数字信号处理基础、语音产生机理、(人的)听觉和听感知机理,以及声道中的声传播原理;第二部分介绍语音信号的时、频域表示和分析;第三部分介绍语音参数估计方法;第四部分介绍语音信号处理的应用,主要包括语音编码、语音和音频信号的频域编辑、语音合成、语音识别及自然语言理解。
您的专属联系人更多
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源
    图书特别说明:由于成本考虑,本书不作为参考书赠送。如果确有授课教材选用的需求,可将详细情况发送给本书专属联系人,我们将进一步沟通并酌情处理。

    本书资源

    本书暂无资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书向授课教师提供英文原版教辅(习题解答,PPT,改编者提供的PPT),具体申请方式请咨询te_service@phei.com.cn本书是作者继1978年出版的经典教材《语音信号的数字处理》之后的又一著作,全书除有简练精辟的基础知识介绍外,系统讲解了近30年来语音信号处理的新理论、新方法和在应用上的新进展。全书共14章,分四部分:第一部分介绍语音信号处理基础知识,主要包括数字信号处理基础、语音产生机理、(人的)听觉和听感知机理,以及声道中的声传播原理;第二部分介绍语音信号的时、频域表示和分析;第三部分介绍语音参数估计方法;第四部分介绍语音信号处理的应用,主要包括语音编码、语音和音频信号的频域编辑、语音合成、语音识别及自然语言理解。

    图书详情

    ISBN:9787121275906
    开 本:16开
    页 数:664
    字 数:1196

    本书目录

    目   录
    第1章  数字语音处理介绍	1
    1.1  语音信号	2
    1.2  语音堆	5
    1.3  数字语音处理的应用	6
    1.3.1  语音编码	6
    1.3.2  文语转换合成	7
    1.3.3  语音识别和其他模式匹配问题	7
    1.3.4  其他语音应用	8
    1.4  参考文献评论	9
    1.5  小结	10
    第2章  数字信号处理基础回顾	11
    2.1  引言	11
    2.2  离散时间信号与系统	11
    2.3  信号与系统的变换表示	13
    2.3.1  连续时间傅里叶变换	14
    2.3.2  z变换	14
    2.3.3  离散时间傅里叶变换	16
    2.3.4  离散傅里叶变换	17
    2.3.5  DTFT的采样	18
    2.3.6  DFT的性质	19
    2.4  数字滤波器基础	20
    2.4.1  FIR系统	20
    2.4.2  FIR滤波器设计方法	21
    2.4.3  FIR滤波器实现	23
    2.4.4  IIR系统	23
    2.4.5  IIR滤波器设计方法	23
    2.4.6  IIR系统的实现	24
    2.4.7  关于FIR和IIR滤波器设计
    方法的说明	27
    2.5  采样	27
    2.5.1  采样原理	27
    2.5.2  语音和音频波形的采样率	28
    2.5.3  改变采样信号的采样率	29
    2.5.4  抽取	29
    2.5.5  插值	32
    2.5.6  非整数采样率变化	33
    2.5.7  FIR滤波器的优点	34
    2.6  小结	34
    习题	34
    第3章  人类语音产生基础	42
    3.1  引言	42
    3.2  语音产生过程	42
    3.2.1  语音产生机理	42
    3.2.2  语音特征与语音波形	46
    3.2.3  语音生成的声学理论	49
    3.3  语音的短时傅里叶表示	50
    3.4  声音语音学	53
    3.4.1  元音	55
    3.4.2  双元音	60
    3.4.3  声音的辨音特质	60
    3.4.4  半元音	61
    3.4.5  鼻音	62
    3.4.6  清擦声	64
    3.4.7  浊擦音	65
    3.4.8  浊塞音	67
    3.4.9  清塞音	67
    3.4.10  破擦声和耳语音	69
    3.5  美式英语音素的辨音特质	70
    3.6  小结	70
    习题	71
    第4章  听觉、听感知模型和语音感知	80
    4.1  引言	80
    4.2  语言链	80
    4.3  解剖学和耳的功能	82
    4.3.1  基底膜机理	84
    4.3.2  临界频带	85
    4.4  声音的感知	85
    4.4.1  声音的强度	87
    4.4.2  人的听觉范围	87
    4.4.3  响度级	90
    4.4.4  响度	91
    4.4.5  音高	91
    4.4.6  掩蔽效应——音调	92
    4.4.7  掩蔽效应——噪声	93
    4.4.8  时域掩蔽效应	94
    4.4.9  语音编码中的掩蔽效应	95
    4.4.10  参数鉴别——JND	95
    4.5  听感知模型	96
    4.5.1  感知线性预测	96
    4.5.2  Seneff听感知模型	97
    4.5.3  Lyon听感知模型	99
    4.5.4  整体区间直方图方法	100
    4.5.5  听感知模型小结	101
    4.6  人类语音感知实验	101
    4.6.1  噪声中的声音感知	102
    4.6.2  噪声中的语音感知	103
    4.7  语音质量和可懂度测量	104
    4.7.1  主观测试	105
    4.7.2  语音质量的客观测量	106
    4.8  小结	107
    习题	107
    第5章  声道中的声音传输	109
    5.1  语音产生的声学原理	109
    5.1.1  声音传播	109
    5.1.2  例子:均匀无损声管	110
    5.1.3  声道中损耗的影响	114
    5.1.4  嘴唇的辐射影响	117
    5.1.5  元音的声道传输函数	120
    5.1.6  鼻腔耦合的影响	123
    5.1.7  声道中声音的激励	123
    5.1.8  基于声学理论的模型	127
    5.2  无损声管模型	128
    5.2.1  级联无损声管中的波形传播	128
    5.2.2  边界条件	130
    5.2.3  与数字滤波器的关系	134
    5.2.4  无损声管模型的传输函数	137
    5.3  采样语音信号的数字模型	141
    5.3.1  声道建模	141
    5.3.2  辐射模型	143
    5.3.3  激励模型	144
    5.3.4  完整模型	144
    5.4  小结	146
    习题	146
    第6章  语音信号处理的时域方法	153
    6.1  引言	153
    6.2  语音的短时分析	154
    6.2.1  短时分析的通用框架	156
    6.2.2  短时分析中的滤波和采样	156
    6.3  短时能量和短时幅度	159
    6.3.1  基于短时能量的自动增益
    控制	160
    6.3.2  短时幅度	162
    6.4  短时过零率	163
    6.5  短时自相关函数	169
    6.6  修正短时自相关函数	173
    6.7  短时平均幅度差分函数	176
    6.8  小结	177
    习题	177
    第7章  频域表示	183
    7.1  引言	183
    7.2  离散时间傅里叶分析	184
    7.3  短时傅里叶分析	186
    7.3.1  DTFT解释	187
    7.3.2  DFT实现	188
    7.3.3  加窗对分辨率的影响	188
    7.3.4  关于短时自相关函数	193
    7.3.5  线性滤波解释	193
    7.3.6  时域和频域中 的
    采样率	197
    7.4  频谱显示	199
    7.5  合成的重叠相加法	206
    7.5.1  精确重建的条件	206
    7.5.2  合成窗的应用	211
    7.6  合成的滤波器组求和方法	212
    7.7  时间抽取滤波器组	217
    7.7.1  通用FBS抽取系统	218
    7.7.2  最大抽取滤波器组	221
    7.8  双通道滤波器组	222
    7.8.1  正交镜像滤波器组	223
    7.8.2  QMF滤波器组的多相结构	225
    7.8.3  共轭正交滤波器	225
    7.8.4  树形结构滤波器组	226
    7.9  使用FFT实现FBS方法	228
    7.9.1  FFT分析技术	228
    7.9.2  FFT合成技术	230
    7.10  OLA再论	232
    7.11  修正的STFT	233
    7.11.1  乘性修正	233
    7.11.2  加性修正	236
    7.11.3  时间标度修正:相位声码器	237
    7.12  小结	242
    习题	242
    第8章  倒谱和同态语音处理	255
    8.1  简介	255
    8.2  卷积同态系统	256
    8.2.1  DTFT表示	257
    8.2.2  z变换表示	260
    8.2.3  复倒谱的性质	260
    8.2.4  复倒谱分析实例	262
    8.2.5  最小和最大相位信号	264
    8.3  语音模型的同态分析	265
    8.3.1  浊音模型的同态分析	266
    8.3.2  清音模型的同态分析	271
    8.4  计算语音的短时倒谱和复倒谱	273
    8.4.1  基于离散傅里叶变换的计算	273
    8.4.2  基于z变换的计算	276
    8.4.3  最小相位和最大相位信号的
    递归计算	278
    8.5  自然语音的同态滤波	279
    8.5.1  语音短时倒谱分析模型	280
    8.5.2  使用多项式根的短时
    分析实例	281
    8.5.3  应用DFT的浊音分析	282
    8.5.4  最小相位分析	286
    8.5.5  应用DFT的清音分析	287
    8.5.6  短时倒谱分析小结	289
    8.6  全极点模型的倒谱分析	290
    8.7  倒谱距离度量	291
    8.7.1  线性滤波补偿	292
    8.7.2  加权倒谱距离度量	292
    8.7.3  群时延频谱	293
    8.7.4  mel频率倒谱系数	294
    8.7.5  动态倒谱特征	296
    8.8  小结	296
    习题	296
    第9章  语音信号的线性预测分析	301
    9.1  引言	301
    9.2  线性预测分析的基本原理	302
    9.2.1  线性预测分析方程的基本
    公式	304
    9.2.2  自相关法	305
    9.2.3  协方差法	307
    9.2.4  小结	308
    9.3  模型增益的计算	309
    9.4  线性预测分析的频域解释	311
    9.4.1  线性预测短时频谱分析	311
    9.4.2  均方预测误差的频域解释	313
    9.4.3  模型阶数p的作用	316
    9.4.4  线性预测语谱图	318
    9.4.5  与其他谱分析方法的对比	320
    9.4.6  选择性线性预测	321
    9.5  LPC方程组的解	322
    9.5.1  Cholesky分解	322
    9.5.2  Levinson-Durbin算法	325
    9.5.3  格型公式及其解	328
    9.5.4  计算需求比较	334
    9.6  预测误差信号	335
    9.6.1  归一化均方误差的其他
    表示法	338
    9.6.2  LPC参数值的实验评估	339
    9.6.3  归一化误差随帧位置的变化	342
    9.7  LPC多项式A(z)的一些性质	344
    9.7.1  预测误差滤波器的最小
    相位性质	344
    9.7.2  PARCOR系数和LPC多项式的
    稳定性	344
    9.7.3  最佳LP模型根的位置	345
    9.8  线性预测分析与无损声管模型的
    关系	348
    9.9  LP参数的替代表示	351
    9.9.1  预测误差多项式的根	351
    9.9.2  全极点系统 的冲激响应	352
    9.9.3  冲激响应的自相关	352
    9.9.4  倒谱	352
    9.9.5  预测器多项式的自相关系数	353
    9.9.6  PARCOR系数	353
    9.9.7  对数面积比系数	353
    9.9.8  线性谱对参数	355
    9.10  小结	357
    习题	357
    第10章  语音参数的估计算法	368
    10.1  引言	368
    10.2  中值平滑和语音处理	369
    10.3  语音背景/静音的鉴别	373
    10.4  浊音/清音/静音检测的一种贝叶斯
    方法	378
    10.5  基音周期估计(基音检测)	383
    10.5.1  理想的基音周期估计	383
    10.5.2  使用一种并行处理方法的
    基音周期估计	386
    10.5.3  自相关、周期性和中心削波	390
    10.5.4  一种基于自相关的基音
    估计器	395
    10.5.5  频域中的基音检测	397
    10.5.6  用于基音检测的同态系统	399
    10.5.7  使用线性预测参数的基音
    检测	403
    10.6  共振峰估计	405
    10.6.1  共振峰估计的同态系统	405
    10.6.2  使用线性预测参数的共振峰
    分析	410
    10.9  小结	412
    习题	412
    第11章  语音信号数字编码	424
    11.1  引言	424
    11.2  语音信号采样	426
    11.3  语音统计模型	427
    11.3.1  自相关函数和功率谱	427
    11.4  瞬时量化	433
    11.4.1  均匀量化噪声分析	435
    11.4.2  瞬时压扩(压缩/扩展)	442
    11.4.3  最优SNR量化	448
    11.5  自适应量化	453
    11.5.1  前馈自适应	454
    11.5.2  反馈自适应	458
    11.5.3  自适应量化的总体评价	461
    11.6  语音模型参数的量化	461
    11.6.1  语音模型的标量量化	462
    11.6.2  向量量化	463
    11.6.3  VQ实现的要素	466
    11.7  差分量化的一般理论	470
    11.8  ?调制	476
    11.8.1  线性?调制	476
    11.8.2  自适应?调制	479
    11.8.3  ?调制中的高阶预测器	481
    11.8.4  LDM到PCM的转换	482
    11.8.5  Δ-Σ模数转换	485
    11.9  差分脉冲编码调制	486
    11.9.1  自适应量化DPCM	487
    11.9.2  自适应预测DPCM	488
    11.9.3  ADPCM系统的对比	491
    11.10  ADPCM编码器的改善	492
    11.10.1  ADPCM编码的基音预测	493
    11.10.2  DPCM系统中的噪声整形	495
    11.10.3  完全量化的自适应预测
    编码器	498
    11.11  综合分析语音编码	502
    11.11.1  A-b-S语音编码系统的
    基本原理	504
    11.11.2  多脉冲LPC	507
    11.11.3  码激励线性预测(CELP)	509
    11.11.4  比特率为4800bps的CELP
    编码器	514
    11.11.5  低延时CELP(LD-CELP)
    编码	516
    11.11.6  A-b-S语音编码小结	517
    11.12  开环语音编码器	517
    11.12.1  二态激励模型	518
    11.12.2  LPC声码器	519
    11.12.3  残差激励LPC	521
    11.12.4  混合激励系统	522
    11.13  语音编码器的应用	522
    11.13.1  语音编码器的标准化	523
    11.13.2  语音编码器的质量评价	524
    11.14  小结	526
    习题	526
    第12章  语音和音频的频域编码	541
    12.1  引言	541
    12.2  历史回顾	542
    12.2.1  通道声码器	542
    12.2.2  相位声码器	545
    12.2.3  早期的STFT数字编码
    工作	546
    12.3  子带编码	546
    12.3.1  理想的2子带编码器	547
    12.3.2  子带编码的量化器	552
    12.3.3  子带语音编码器示例	552
    12.4  自适应变换编码	554
    12.5  音频编码的感知模型	556
    12.5.1  短时分析和合成	556
    12.5.2  临界带理论回顾	557
    12.5.3  听阈	558
    12.5.4  STFT的声压校正	559
    12.5.5  掩蔽效应回顾	560
    12.5.6  掩蔽音的识别	562
    12.5.7  STFT的量化	564
    12.6  MPEG-1音频编码标准	566
    12.6.1  MPEG-1滤波器组	566
    12.6.2  通道信号的量化	571
    12.6.3  MPEG-1层II和层III	573
    12.7  其他语音编码标准	574
    12.8  小结	574
    习题	574
    第13章  文语转换合成方法	582
    13.1  简介	582
    13.2  文本分析	582
    13.2.1  文档结构检测	583
    13.2.2  文本正则化	583
    13.2.3  语义分析	584
    13.2.4  语音学分析	584
    13.2.5  多音词消歧	585
    13.2.6  字母-声音转换	585
    13.2.7  韵律分析	586
    13.2.8  韵律指定	586
    13.3  语音合成方法的发展	587
    13.4  早期的语音合成方法	588
    13.4.1  声码器	588
    13.4.2  终端模拟语音合成	590
    13.4.3  发音器官语音合成方法	591
    13.4.4  单词拼接合成	593
    13.5  单元选择方法	595
    13.5.1  拼接单元的选择	595
    13.5.2  自然语音中的单元选择	597
    13.5.3  从文本中进行在线单元选择	597
    13.5.4  单元选择问题	597
    13.5.5  转移代价和单元代价	599
    13.5.6  单元边界平滑和修改	600
    13.5.7  单元选择方法的实验结果	605
    13.6  TTS的未来需求	605
    13.7  可视化TTS	605
    13.7.1  VTTS处理	606
    13.8  小结	608
    习题	608
    第14章  自动语音识别和自然语言理解	610
    14.1  引言	610
    14.2  自动语音识别简述	611
    14.3  语音识别的整体过程	611
    14.4  构建一个语音识别系统	612
    14.4.1  识别任务	613
    14.4.2  识别特征集	613
    14.4.3  识别训练	614
    14.4.4  测试与性能评估	614
    14.5  ASR中的决策过程	614
    14.5.1  ASR问题的贝叶斯原理	615
    14.5.2  Viterbi算法	618
    14.5.3  步骤1:声学建模	619
    14.5.4  步骤2:语言模型	620
    14.6  步骤3:搜索问题	623
    14.7  简单的ASR系统:孤立的数字识别	624
    14.8  语音识别器的性能评估	625
    14.9  口语理解	628
    14.10  对话管理和口语生成	629
    14.11  用户界面	631
    14.12  多模态用户界面	631
    14.13  小结	632
    习题	632
    附录A  语音和音频处理演示	637
    附录B  频域微分方程求解	644
    术语表	646
    展开

    前     言

    译 者 序
    语音信号处理是一门古老而新颖的学科,说它“古老”是因为它与数字信号处理同时代产生,说它“新颖”是因为它一直经历着令人激动的变革和挑战。Lawrence R. Rabiner教授作为这些变革的亲历者和大师级人物,有着深刻的切身体验,他的著作,如1978年他与Ronald W. Schafer教授合著的《语音信号数字处理》和1993年他与Biing-Hwang Juang教授合著的《语音识别基本原理》,也成为了语音信号处理领域的经典和必备读物。2010年,在清华大学电子工程系朱雪龙教授的推荐下,电子工业出版社希望我们完成Rabiner教授和Schafer教授的新作《数字语音处理理论与应用》一书的翻译工作,我们欣然接受了翻译任务。然而,翻译的过程是艰辛的,为了能够对原文有比较准确的翻译表述,我们经历了无数个不眠之夜,历时五载,终于完成了初稿。在此期间,由于机器学习(尤其是深度学习)、听觉感知、听觉场景分析等理论和技术的发展,语音信号和信息处理技术经过一段平缓发展期后,又开始生机盎然,语音识别、说话人识别、语种识别、语音增强、语音和音频编解码、自然语言处理等技术都有新的创新,其系统性能也有显著提升。语音相关的产品也如雨后春笋般地涌现。在此时机下,我们期待此书的翻译出版能对国内语音界的科研人员,以及本科生和研究生的专业教学有所帮助。
    本书原著结合自己的科研实践对数字语音信号处理的基本原理和应用进行了深入分析,既有理论深度,又通俗易读。内容分为四个层次逐级展开:第一个层次介绍语音信号处理基础知识,主要包括数字信号处理基础、语音产生机理、人的听觉和听感知与声道中的声传播;第二个层次介绍语音信号的时频表示,主要包括时域表示、频域表示、倒谱及同态处理和线性预测分析;第三个层次介绍语音参数估计算法,主要包括静音检测、清浊判断、基音和共振峰估计等;第四个层次介绍语音信号处理的应用,主要包括语音编码、语音和音频频域编码、语音合成、语音识别和自然语言理解。除了深入浅出的讲解外,书中还附有大量生动的插图,各章之后还附有精心设计的习题和MATLAB练习,以便读者对基础知识和基本方法深入理解和灵活应用。
    本书能够得以完成,要特别感谢清华大学的朱雪龙教授,他不但为我们和出版社牵线搭桥,而且一直关心着我们的翻译工作;另外他于1983年牵头翻译的《语音信号数字处理》也为本书提供了诸多宝贵的参考和基础。感谢电子工业出版社的相关编辑,他们为本书的引进做出了贡献,同时对我们的翻译工作给予了大力支持。
    在本书的翻译工作中,清华大学电子工程系语音与音频技术实验室的博士研究生和博士后也参与了部分内容的翻译工作,他们是(按姓氏拼音排序):蔡猛、钱彦旻、单煜翔、史永哲、杨毅等,在此一并表示感谢。
    本书虽然经过两次翻译校对,但是难免仍然会存在错误和不妥之处,欢迎读者批评指正。
    
    
    刘加  张卫强  何亮  路程
    2015年11月于清华园
    
    前   言
    
    70多年来,语音信号处理一直是一个活跃且不断发展的领域。最早的语音处理系统是模拟系统,如20世纪30年代由Homer Dudley及其同事们在贝尔实验室开发并于1939年在纽约世博会上展出的Voder系统,该系统可通过手工操作合成出语音;同期,Homer Dudley在贝尔实验室还开发出了通道声码器或声音编码器;20世纪40年代,Koenig及其同事们在贝尔实验室开发出了声音语谱图系统,该系统可以在时域和频域展示语音的时变特征;另外,20世纪50年代,全世界的很多研究实验室都开发出了早期的语音单词识别系统。
    数字信号处理(DSP)起源于20世纪60年代,在DSP应用的广泛领域中,语音处理是其早期发展的驱动力。在此期间,先驱研究者们如麻省理工学院林肯实验室的Ben Gold和Charlie Rader,贝尔实验室的Jim Flanagan、Roger Golden和Jim Kaiser,他们开始研究数字滤波器的设计和应用方法,并用于语音处理系统的模拟仿真。随着1965年Jim Cooley和John Tukey发明快速傅里叶变换(FFT)技术以及FFT在快速卷积和谱分析方面的广泛应用,模拟技术的束缚和局限逐渐被打破,数字语音处理随之产生并展现出了清晰的面貌。
    1968年至1974年期间,本书作者(Lawrence R. Rabiner和Ronald W. Schafer)在贝尔实验室一起密切地工作,期间DSP领域取得了很多的基础性进展。当Ronald W. Schafer于1975年离开贝尔实验室并在佐治亚理工学院任学术职位时,数字语音处理领域已蓬勃发展,于是我们觉得是时候写一本关于语音信号数字处理方法和系统的教材了。到1976年,我们相信数字语音处理的理论发展得已经足够完备,精心撰写一本教材不但可以作为讲授数字语音处理基础知识的教材,还可以作为未来语音处理实际应用系统设计的参考书。1978年,Prentice-Hall公司出版了这本教材《数字语音信号处理》。采用这本教材,Ronald W. Schafer开设了第一门数字语音处理的研究生课程,期间Lawrence R. Rabiner仍在贝尔实验室从事数字语音处理基础的研究工作(Lawrence R. Rabiner在贝尔实验室和AT&T实验室工作了40年,2002年也进入学术界,在罗格斯大学和加州大学圣?巴巴拉分校任教。Ronald W. Schafer在佐治亚理工学院工作30年后,于2004年加入了惠普实验室)。
    1978年出版的教材的目标是,介绍语音基础知识和数字语音处理方法,以便构建强大的语音信号处理系统。从宏观层面来说,我们达到了最初的目标。本书按我们的预想服务了30多年,令我们高兴的是,直到今天它仍然广泛应用于本科生和研究生的语音信号处理课程教学。然而,根据我们过去20年来教授语音处理课程的经验,原书的基础尚可,但很多内容已与当代语音信号处理系统脱节,且未涉及当前的很多研究热点。这本新书正是我们改进这些问题的尝试。
    在着手统一数字语音处理的现有理论和实践的艰巨任务时,我们发现原书中的很多内容还是正确且相关的,因此新书的起点很好。此外,我们从语音处理的科研和教学经验中了解到,1978年出版的教材中,虽然内容组织基本上没有问题,但它已经不适合用来理解当代的语音处理系统。针对这些问题,我们在组织新书的内容时采用了新的框架,它与原书相比有两大改变。首先,我们包含了已有的数字语音处理知识体系结构。这种体系的第一层是语音基础科学和工程方面的基础知识;第二层是语音信号的各种表示。原书主要侧重了这两层,但一些关键主题则有所缺失。第三层是操作、处理和抽取语音信号中信息的各种算法,这些算法基于前两层的科学和技术知识。顶层(即第四层)是语音处理算法的各种应用,以及处理语音通信系统中问题的技术。
    我们努力按照这种体系结构(即语音金字塔)来展现新书的内容。为达到这一目的,第2章至第5章主要介绍金字塔的底层,内容包括语音产生和感知基础知识、DSP基础知识回顾,以及声学、语音学、语言学、语音感知、声道中的声音传播等。第6章至第9章介绍如何通过基本的信号处理原理来表示数字语音信号(语音金字塔的第二层)。第10章介绍如何设计可靠和稳健的语音算法来估计感兴趣的语音参数(语音金字塔的第三层)。最后,第11章至第14章介绍如何利用语音金字塔前几层的知识来设计和实现各种语音应用(语音金字塔的第四层)。
    新书在结构和行文上的一个重要变化是,为了尽可能地方便教学,我们在呈现内容时侧重于学习新思想的三个方面,即理论、概念和实现。对每个基本概念,我们都用很容易理解的DSP概念进行理论阐释;类似地,为了加深理解,每个新概念都提供了简单的数学解释和精心准备的例子与插图;最后,基于教学中对基础知识的理解,针对每个新概念的实现,提供了可实现特定语音处理操作的MATLAB代码(通常包含在每章中),每章的习题中配备了文档详尽的MATLAB练习。我们还在教学网站上提供了求解所有MATLAB练习所需要的内容,如MATLAB代码、数据库、语音文件等。最后,我们提供了几种语音处理系统结果的音频演示。通过这种方式,读者可以直观地了解各种语音信号处理后的语音质量。
    更具体地讲,这本新书的组织如下。第1章简要介绍语音处理的领域,简要讨论贯穿于全书的主题的应用领域。第2章简要回顾DSP的概念,重点在于与语音处理系统密切相关的几个关键概念:
    1. 从时域到频域的转换(通过离散时间傅里叶变换方法)。
    2. 了解频域采样的影响(即时域混叠)。
    3. 了解时域采样(包括下采样和上采样)的影响,以及频域的混叠和镜像。
    在回顾DSP技术的基础知识后,第3章和第4章讨论语音的产生和感知。这两章与第2章和第5章一起,构成了语音金字塔的底层。从这里,我们开始讨论语音产生的声学理论,对不同的语音发音,我们导出了一系列声学语音模型,并展示了语言学和语音学如何与语音发声声学一起相互作用,生成语音信号及其在语言上的解释。讨论从语音在人耳中如何处理开始,到声音转换为通往大脑的听感知神经通路中的神经信号结束,我们通过分析语音感知过程,讨论了语音通信的基本过程,还简要讨论了几种在一些语音处理应用中可能嵌入语音感知知识到听感知模型的方法。第5章介绍关于人类声音在声道中传播问题的基础知识,表明与声道相似的均匀无损声管具有共振结构,以此阐明语音中的共振(共振峰)频率。还展示了如何通过适当的“终端模拟”数字系统来表示一系列级联声管的传播特性。该“终端模拟”数字系统具有特定的激励函数、对应不同长度和面积声管的特定系统响应,以及对应声音在唇端传输的特定辐射特征。
    接下来的四章介绍主要4种数字语音信号的表示(语音金字塔的第二层)。第6章从语音产生的时域模型开始,逐步展示了如何通过简单的时域测量方法来估计模型中的基本时变属性。第7章介绍对语音信号应用短时傅里叶分析,以便实现无失真的分析/合成系统。取决于待处理信息的性质,我们解释了两种短时傅里叶分析/合成系统,两者都有着广泛的应用。第8章描述语音的同态(倒谱)表示,其中用到了卷积信号(如语音)可以转换为一系列加性分量这一性质。由于语音信号可以表示为激励信号和声道系统的卷积,因此语音信号非常适合于这种分析。第9章介绍线性预测分析的理论和实践,线性预测是语音信号的一种模型表示,当前的语音样本可以通过先前p个语音样本的线性组合建模表示,通过寻找最优线性预测器(最小均方误差)的系数,实现在给定时间段内最优的匹配语音信号。
    第10章(语音金字塔的第三层)使用前面章节中介绍的信号处理表示和语音信号基础知识,介绍了如何使用短时(对数)能量、短时过零率、短时自相关函数等测量值来估计基本的语音属性,例如分析的信号段是语音还是静音(背景信号)、语音段是浊音还是清音、浊音语音段的基音周期(基音频率)、语音段的共振峰(声道共振)等。对于许多语音属性,4种语音表示中的每一种,都可以作为估计语音属性的高效算法使用。同时还介绍了如何基于4种语音表示中的两种测量法来估计共振峰。
    第11章至第14章(语音金字塔的顶层)介绍语音和音频信号处理技术的几种主要应用。这些应用是深入理解语音和音频技术的成果。讨论语音应用的目的是,让读者基本了解如何构建这些应用,了解它们在不同比特率和不同应用场景下的性能。具体来讲,第11章介绍语音编码系统(包括开环和闭环系统);第12章介绍如何使用感知掩蔽准则来构建具有最小编码感知误差的音频编码系统;第13章介绍如何构建口语对话系统中使用的文语转换合成系统;第14章介绍语音识别和自然语言处理系统,以及它们在一系列面向任务的场景中的应用。
    本书可作为已先修DSP课程的学生的一个学期的语音处理教材。在我们自己的教学实践中,重点讲解第3章至第11章,同时选讲其他章节的部分内容,以便使学生对音频编码、语音合成和语音识别系统也有一定的认识。为了帮助教学,每章都提供了一些有代表性的课后习题,以强化每章讨论的概念。成功完成合理数量的课后习题,对理解语音处理的数学和理论概念非常重要。但如读者了解的那样,很多语音处理都是经验性的,因此我们提供了许多MATLAB练习来强化学生对语音处理基本概念的理解。我们还提供了配套的教学网站(http://www.pearsonhighered.com/Rabiner),并随时更新网站的内容,包括所需的语音文件、数据库和求解MATLAB练习的MATLAB代码,以及一系列语音处理概念的演示。
    致谢
    在语音处理的职业生涯中,我们非常幸运在拥有过在杰出研究和学术机构的工作经历,这些单位为我们提供了充满激情的研究环境,并且鼓励我们分享知识。对于Lawrence R. Rabiner而言,这些单位包括贝尔实验室、AT&T实验室、罗格斯大学和加州大学圣塔芭芭分校;对于Ronald W. Schafer而言,这些单位包括贝尔实验室、佐治亚理工大学ECE和惠普实验室。没有这些单位的同事和领导的支持与鼓励,这本书不会存在。
    很多人对本书的内容有直接或间接的重大影响,但我们最应感谢的是James L. Flanagan博士,他是我们两人职业生涯中很多关键时期的导师和益友。Jim为我们如何从事科研、如何清晰合理地呈现研究结果提供了指导。无论是对这本书还是对我们各自的职业,他的影响都是非常深远的。
    感谢有幸合作并互相学习的其他人,包括我们的导师麻省理工学院的Alan Oppenheim教授和Kenneth Stevens教授,以及我们的同事佐治亚理工大学的Tom Barnwell教授、Mark Clements教授、Chin Lee教授、Fred Juang教授、Jim McClellan教授和Russ Mersereau教授。这些人既是我们的同事,又是我们的老师,我们感激他们的睿智和多年来的指导。
    直接参与本书准备工作的同事包括Bishnu Atal博士、Victor Zue教授、Jim Glass教授和Peter Noll教授,他们都提供了见解深刻的成果,这些成果对本书中的很多内容产生了很大的影响。感谢其他人允许我们使用其发表物中的图表,包括Alex Acero、Joe Campbell、Raymond Chen、Eric Cosatto、Rich Cox、Ron Crochiere、Thierry Dutoit、Oded Ghitza、Al Gorin、Hynek Hermansky、Nelson Kiang、Rich Lippman、Dick Lyon、Marion Macchi、John Makhoul、Mehryar Mohri、Joern Ostermann、David Pallett、Roberto Pieraccini、Tom Quatieri、Juergen Schroeter、Stephanie Seneff、Malcolm Slaney、Peter Vary和Vishu Viswanathan。
    感谢朗讯-阿尔卡特公司、IEEE、美国声学学会和House-Ear Institute允许我们使用已发表或备档的图表。
    同时要感谢Prentice Hall公司的那些帮助出版本书的人员,包括策划编辑Andrew Gilfillan、责任编辑Clare Romeo和助理编辑William Opaluch。还要感谢TexTech International公司负责文字编校工作的Maheswari PonSaravanan。
    最后,感谢赞助商Suzanne Dorothy对我们给予的关爱、耐心和支持。
    
    
    Lawrence R. Rabiner和Ronald W. Schafer
    展开

    作者简介

    本书暂无作者简介
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网