图书简介:
第1章 绪论
1.1 概述
1.2 人类视觉和计算机视觉
1.3 人类视觉系统
1.4 计算机视觉系统
1.5 数学系统
1.6 相关资料
1.7 小结
1.8 参考文献第2章 图像、 采样和频域处理
2.1 概述
2.2 图像形成
2.3 傅里叶变换
2.4 采样标准
2.5 离散傅里叶变换
2.6 傅里叶变换的其他特性
2.7 傅里叶以外的其他变换
2.8 频域特性的应用
2.9 扩展阅读
2.10参考文献第3章 基本图像处理运算
3.1 概述
3.2 直方图
3.3 点算子
3.4 群运算
3.5 其他统计算子
3.6 数学形态学
3.7 扩展阅读
3.8 参考文献第4章 低级特征提取(包括边缘检测)
4.1 概述
4.2 边缘检测
4.3 相位一致性
4.4 定位特征提取
4.5 描述图像运动
4.6 扩展阅读
4.7 参考文献第5章 形状匹配的特征提取
5.1 概述
5.2 阈值处理和背景减法
5.3 模板匹配
5.4 低级特征提取
5.5 霍夫变换
5.6 扩展阅读
5.7 参考文献第6章 高级特征提取: 可变形形状分析
6.1 概述
6.2 可变形形状分析
6.3 主动轮廓(蛇模型)
6.4 形状骨架化
6.5 弹性形状模型——主动形状和主动外观
6.6 扩展阅读
6.7 参考文献第7章 目标描述
7.1 概述
7.2 边界描述
7.3 区域描述符
7.4 扩展阅读
7.5 参考文献第8章 纹理描述、 分割和分类基础
8.1 概述
8.2 什么是纹理
8.3 纹理描述
8.4 分类
8.5 分割处理
8.6 扩展阅读
8.7 参考文献第9章 运动对象检测与描述
9.1 概述
9.2 运动对象检测
9.3 跟踪运动特征
9.4 运动特征提取与描述
9.5 扩展阅读
9.6 参考文献第10章 附录1: 照相机几何基础
10.1 图像几何
10.2 透视照相机
10.3 透视照相机模型
10.4 仿射照相机
10.5 弱透视模型
10.6 照相机模型实例
10.7 讨论
10.8 参考文献第11章 附录2: 最小二乘分析
11.1 最小二乘准则
11.2 最小二乘曲线拟合第12章 附录3: 主成分分析
12.1 主成分分析
12.2 数据
12.3 协方差
12.4 协方差矩阵
12.5 数据变换
12.6 逆变换
12.7 特征值问题
12.8 求解特征值问题
12.9 PCA方法小结
12.10实例
12.11参考文献第13章 附录4: 彩色图像
13.1 彩色图像
13.2 三刺激理论
13.3 色彩模型
13.4 参考文献
展开
译 者 序
人类在认知和理解周围环境的过程中, 70%以上的信息都是通过眼睛获取的。这样, 视觉信息在计算机视觉和模式识别等领域体现为对图像(包括视频)的分析和理解。例如, 目标检测与跟踪、 异常行为识别与分析等计算机视觉领域的典型应用, 它们的基础内容和关键步骤都是特征提取和图像处理。
本书是由英国南安普敦大学的Mark Nixon教授和Sportradar公司的Alberto S. Aguado在前版的基础上推出的改版之作(第三版)。该书自2006年4月出版第一版起, 就受到了读者的广泛好评, 并于2008年6月出版第二版。2010年, 受电子工业出版社委托, 我们组织翻译了本书第二版。中文版同样受到了读者的广泛好评, 短短两年的印量已突破1万册。
相对于第二版, 本书的主要变化包括: 将高级特征提取划分为固定形状匹配与可变形形状分析两部分, 并且增加了新一章内容(第9章): 运动对象检测与描述。此外, 其他的章节或者增加了少量新内容, 或者修正了英文原著中的个别错误。因此, 第三版的质量更高。总体上看, 本书具有以下几个特色。
首先, 本书的内容全面、 重点突出。在简要介绍计算机视觉的基础概念和基本的图像处理运算后, 重点讨论了低级和高级的特征提取, 包括边缘检测、 固定形状匹配和可变形形状分析。此外, 对目标描述, 纹理描述、 分割及分类, 以及运动对象检测等都进行了深入的阐述。它突出了计算机视觉的主要问题——特征提取, 以清晰、 简洁的语言, 阐述了图像处理和计算机视觉的基础理论与技术。
其次, 本书的适用面广。它适合于电子工程、 计算机科学、 计算机工程等专业的本科生作为教材使用, 也适合于从事图像及视频信号处理、 模式识别和计算机视觉等研究方向的博士、 研究生阅读, 也可以作为相关专业的科研工作者参考用书。
再次, 本书提供了部分有参考价值的代码和伪代码。特别是, 书中提供的一些C语言或MATLAB语言的源代码, 可以方便工程应用时参考使用, 尤其适合于高校的博士、 硕士研究生进行算法学习与研究时参考使用。
当然, 特征提取是图像模式识别和计算机视觉领域的研究热点, 各种新算法和技术层出不穷。本书只提供了迄今为止本领域技术水平的诸多基础内容。尽管如此, 译者仍然认为, 本书是一本不可多得的好教材。
全书由湖南大学杨高波和李实英分工翻译。其中, 本书的第1章至第4章和第6章至第8章由李实英翻译, 前言、 第5章和第9章由杨高波翻译, 全部附录(第10—13章)由夏明、 陈日超、 蒋琴、 陈宁、 吴潇和向仁华共同完成初稿翻译, 杨高波进行润色。全书由李仁发教授审校。
把一种语言表达转换成另一种语言是一件困难的事情。看似很直白的一个词虽然不难理解其词义, 但是转换语言进行表达时往往需要煞费苦心。本书作者语言诙谐, 行文有较多的口语化表达, 理解起来较为困难。此外, 还有大量过长的句子。在翻译过程中, 译者力求忠实地传达书中所介绍的技术内容, 并保持作者的行文风格, 在此基础上尽可能通俗易懂。但是, 我们出于教材的篇幅和严谨性考虑, 在翻译中进行了少量的简化, 感兴趣的读者可以对照阅读本书的英文版(已由电子工业出版社出版, ISBN: 9787121195273)。
值得说明的是, 虽然我们尽量吸收了读者对于本书第二版中文翻译的一些意见和建议, 并对全文的翻译重新进行了润饰, 但是由于时间仓促及译者水平和经验的不足, 本书离“信、 达、 雅”的翻译原则仍有较大差距, 甚至仍然难免存在一些不当之处, 恳请读者提出宝贵的意见, 特别是对于一些专业术语翻译的建议。译者的联系邮箱为yang.gaobo@hnu.edu.cn, 我们将认真做好记录, 并尽可能在重印或再版时进行修订。
广大读者对于中文版的厚爱和电子工业出版社的肯定, 是我们再次翻译第三版的最大动力。本书在翻译过程中, 得到了许多人士的帮助。电子工业出版社马岚编辑策划了本书的出版, 并对翻译过程的一些细节进行了指导。在中文第一版翻译过程中, 赵鹏玉、 肖志鹏、 牛志国、 尚学智、 米超、 张然、 赵林详、 陈日超、 蒋琴、 陈宁、 吴潇和向仁华等参与了部分工作。对此, 译者一并深表感谢。
译 者
2013年9月于长沙岳麓山
前 言
第3版的“新”是什么
图像处理与计算机视觉已经受到, 并且将持续受到许多研究与开发的影响。新的研究成果已整理成书, 因此本书也需要更新改版。我们一直提到, 书中包含了一些在其他正规的教材中尚未出现的图像处理与计算机视觉技术(确实如此, 也许一些内容已经出现在某些专著中, 但是这些专著很少包括一些基础性知识)。对于本书以前的版本, 这是正确的, 可以确定本版仍将如此。
在本版中, 全新的内容是低级与高级特征提取与描述的新方法, 以及运动目标检测、跟踪与描述。我们还扩展了本书, 通过更先进的技术进行目标提取与描述, 特别是强调了小波与尺度空间。当然, 我们修正了以前版本的一些出版错误, 并且在合适的地方引入了一些基础性的材料, 更新了参考文献, 特别是包含了更新的综述与性能比较的资料。因此, 本书仍然是更新的、面向计算机视觉的特征提取与图像处理教材。
为什么写这本书
我们总是期望被问到, “究竟为什么写一本关于计算机视觉的新书?”, 我们也确实是这样被问的。一个普遍性的问题是:“既然在书店中已有很多关于计算机视觉的好书, 正如后面即将引用的那些, 为何还要再写一本呢?”这个问题的部分答案是任何教材都是此前已有资料的快照。计算机视觉, 作为一门利用计算机处理图像的艺术, 已经有众多高水平的研究人员在此领域进行了相当多的研究, 并且近年来仍在增长。这意味着, 已经发展了许多新的技术, 并且许多新的技术有待于迁移到教材中。但是, 它并不只是新研究:计算机视觉领域技术的部分快速进展, 仍然遗留了一些缺乏细节的领域。从研究的本质看, 一个人不可能出版那些看上去只是填补历史缺陷, 而不推动知识进步的技术资料。这就是为什么一本新的教材仍然能够对计算机视觉的深化有所贡献的原因。
最后, 技术本身继续进步。这意味着, 有新的硬件、新的编程语言、新的编程环境出现。特别是对于计算机视觉, 技术的进步意味着计算能力、内存等现在变得相对便宜。可以肯定, 比起计算机视觉刚成为一个研究领域时, 它们现在更为便宜。作者之一在这里注意到, 用来写作本书的笔记本电脑比他读大学整个阶段所使用的台式机都具有更多的内存, 更快的速度, 更大的磁盘空间和更好的图形能力。然而, 作者本人并不太老。近年来, 由于技术进步所带来的一个更有利的变化是数学编程系统的发展。这些进步允许我们关注于数学本身, 而不是实现的细节。有几个更“尖端”的工具软件, 例如本书所选用的MATLAB就是最流行的。我们已经在教学和科学研究中广泛地使用, 而且我们认为它在那里起了相当重要的作用。在研究工作中, 它们帮助我们更快地发展新的技术, 并且评价它的最终实现, 对于教学工作, 现代便携式计算机和数学系统在教学中联合展示给学生, 不仅包括这些技术是如何实现的, 而且包括如何以及为什么它们与传统的教学资料一起, 以明确的关系共同起作用。
基于上述原因, 我们编写了本书。有大量的资料本来可以包括进来, 但我们选择了忽略。用于全面展示学科的分类与结构, 是我们自己构造的。如果那些我们选择忽略的技术是你们的工作或者你们所喜欢的工作, 对此我们很抱歉。由于计算机视觉领域涉及面相当广, 本书仅限于计算机视觉领域的图像处理与特征提取。原因在于, 图像处理与特征提取不仅是我们研究工作的重点, 也是其他的一些已经出版的同类教材所关注的。当然, 也有例外, 但是相当少。然而, 它是计算机视觉应用的主要目标之一。我们旨在澄清它的一些起源和发展, 同时揭示使用数学系统的实现。正因如此, 我们心里怀揣着最初的目标重新编写了本书, 并且在后续的版本仍然保留这样的想法。
本书与支持
本书的每一章都提供了图像处理与计算机视觉的特征提取所涉及的特定信息包。每个信息包都是在原稿的基础上, 通过参考更新的资料完成的。自然地, 在讨论具体的实现之前, 通常需要关注理论上的发展。我们提供了我们所描述的绝大多数技术的实现, 并应用到选定的图像集的处理。尽管我们工作的重点更多地放在医学图像的分析或者生物信息学(一门通过人的行为或心理特征识别人的科学, 类似于人脸识别), 这些技术都是通用性的, 可以移植到其他的应用领域。
读者可以在本书的支持网站(http://www.ecs.soton.ac.uk/~msn/book/)找到大量的进一步支持信息。首先, 可以得到与本书配套的工作表单(支持本教材的MATLAB和Mathcad实现), 以便读者可以学习本书所描述的技术。那里, 还有演示网站。该网站将会尽可能地保持持续更新, 因为它还包括了一些其他资料的链接, 如关于技术、应用以及可得到的软件、在线文献的资料。最后, 在网站公布全部的勘误信息。勘误表的存在, 是我们的遗憾和责任。如果你找到了我们所不知道的错误(不是指拼写、语法和排版等错误), 请直接使用网站上的mailto给我们发邮件, 我们将非常感谢。
本书包含了一定数量的数学内容, 它的目标读者群是电气及电子工程, 软件工程, 计算机科学, 以及数学或物理专业的高年级本科生和硕士研究生。计算机视觉可以被认为是应用数学的一个分支。实际上, 这里涉及的数学主要有微积分学和几何学, 尽管它可能比传统的课程讲授更加详细一些。可以肯定, 这里所使用的资料并不是都可以在南安普敦的大学课程里全部覆盖到的。
第1章从计算机视觉的硬件、软件和已有资料的综述开始, 并且参考了有待进一步发展的、更复杂的视觉系统:人类视觉系统。尽管关于处理本质的确切细节仍然有待深化, 它仍然包含了相当大范围的硬件和软件, 以便一个计算机系统具备捕获、处理和推理的能力。第1章还提供了一个关于本主题资料的综合性书目, 不仅包括教材, 还有可用的软件和其他材料。毫无疑问, 它们将会发生变化, 有必要查询本书网站得到最全面的信息。建议的杂志参考资料是那些在当地的大学图书馆或网络上易于找到的, 特别是IEEE专刊。由于价格相对低廉, 质量通常很高, 它们通常会被图书馆订阅。
第2章是计算机视觉用到的信号处理理论的基础知识。引入傅里叶变换, 从而允许以一种新的方式, 从其频率内容来观察一个信号。它还允许我们找出最小化的图像, 同时保持信息并从频率的角度分析内容, 甚至有助于提速后述的一些计算机视觉算法。遗憾的是, 它确实涉及少量的公式, 但是它是观察数据和信号的一种新方式, 并且已证明是一个富有收获的学习主题。它扩展了图像处理的一种流行分析工具, 即小波分析。
第3章是从图像处理技术的基础开始的。首先, 考虑原始图像的每一个像素, 然后通过考虑像素组, 将图像的每个像素映射到一个新值。不仅包括通过常见的处理, 改善图像的视觉效果, 特别是对于人眼的视觉效果, 还包括如何减弱经常遇到的不同类型的图像噪声的方法。此外, 还将介绍一些更新的方式去除噪声以得到“干净”的图像, 以及采用形状的概念处理图像, 而不是映射过程。
第4章是低级的特征, 那些从整幅图像而不是显著区域的层次描述图像内容的技术。最重要的过程之一就是边缘检测。本质上, 这是将图像缩减为一种漫画式骨骼化(caricaturist’s sketch)的形式, 尽管没有漫画的夸张表现。本章对于主要的边缘检测技术都进行了详细介绍, 包括关于实现的描述。可以得到的其他图像属性, 包括已发展为现代特征提取方法的曲率测量和矩的测量, 都涵盖在本章中。
这些边缘、曲率或者运动需要按照某种方式组织到一起, 以便能够从一幅图像中找到形状。这些内容将在第5章描述。使用简单的阈值处理, 极少能够满足形状提取的要求。一种最新的方法是将低级特征组合在一起寻找目标——通过这种方式提取对象(没有形状约束)。另一种方法是形状提取, 涉及分析低级信息, 并与目标形状的已知模板进行匹配。因为该方法计算量很大, 从而需要寻求一种既可以改善计算性能, 又同时保持优化性能的方法。该方法就是我们所熟知的霍夫(Hough)变换。长期以来, 霍夫变换是计算机视觉领域学者的一个受欢迎的研究主题, 本书旨在弄清它的基础、改善它的速度以及增强它的准确性和鲁棒性。实际上, 利用霍夫变换, 我们可以估计那些控制形状的外观参数, 形状包括直线、椭圆, 甚至是未知的形状。
在第6章, 形状提取的一些应用除了要求确定控制外观的参数以外, 还要求变形(deform)或者弯曲(flex)的能力, 以匹配图像模板。因为这个原因, 紧接着第5章基于匹配的形状提取, 是灵活的形状分析。这是一个已经具有相当多进展的主题, 特别是引入Snake(主动轮廓, active contour)的概念以后。新的技术资料是基于水平集(level set)的表达, 它为形状提取带来了新的动力。这些方法寻求通过分析局部属性, 寻求与图像中的形状匹配的方法。并且, 我们将会看到如何利用骨架描述形状(尽管具有实际的困难, 但可以借助对称性缓解), 以及涉及形状外观统计的全局约束如何被用来指导最终的形状提取。
至此, 我们仍然没有考虑那些可以用于描述一幅图像中已找到的形状的方法。在第7章, 将会发现有两种主要的方法, 涉及描述某形状的周长和面积。一些周长描述方法, 如傅里叶描述算子(Fourier descriptor), 依赖于分析它们频率内容(frequency content)的傅里叶变换理论。面积描述的主要方法之一是统计矩。尽管与傅里叶分析具有明显不同的本质, 统计矩也是一种访问频率成分的形式。一种优势在于:对描述能力的洞察可以通过重构来实现, 而重构应该还原到原始的形状。
第8章描述了纹理分析, 也同时作为模式分类的入门知识介绍。纹理是描述没有已知分析描述的模式。它已经成为计算机视觉和图像处理领域相当多研究工作的目标。将它放在这里, 更多是作为前面介绍的傅里叶变换和面积描述算子的一种铺垫, 参考文献提供了一些其他的通用资料。此外, 还有一些关于如何对已知数据分类这些模式的入门资料。这些只是作为一个更广泛领域的一个小窗口。
最后, 第9章涉及运动目标的检测与分析。运动目标是通过与把前景与背景分离而检测到的, 这就是众所周知的背景减方法。分离运动的组件后, 一种方法是在图像帧序列的范围内跟随或者跟踪目标。运动目标可以通过跟踪信息或者通过搜集帧序列进行描述和识别, 从而得到运动对象描述。
附录部分包括那些与本书密切相关的资料, 例如摄像机模型、坐标几何、最小二乘方法、主成分分析方法和色彩描述方法。它们都只是提供了一些简单的介绍。考虑到它们与本书内容密切相关, 但不适合作为正文内容, 就把它们作为了附录。其他的相关资料, 特别是在线资料, 在整个正文中都进行了引用。
通过这种方式, 本书覆盖了计算机视觉图像处理与特征提取的所有主要领域。然而, 与在本书所介绍到的内容相比, 仍然有相当多的资料没有包括进来。例如, 有大量的三维计算机视觉和二维信号处理的材料, 在本书中仅仅被提及。那些本书特意未包括的内容有三维处理、水印和图像编码。涵盖所有内容将会导致一本无人买得起和拿得动的怪书! 因此, 我们承认本书只是一个“快照”, 但是我们希望它被认为是为如此引人入胜和具有丰厚回报的领域打开了另一扇窗。
致谢
非常感谢我们的同事, 特别是Steve Gunn教授, John Carter博士和Sasan Mahmoodi博士, Maria Eugenia。此外, 我们还非常感谢南安普敦大学电子与计算机科学学院Mark教授领导的信息:信号、图像与系统(ISIS)研究组计算机视觉领域的那些过去和现在的研究人员。除了包括Alberto和Steve, 还有Hani Muammar博士, Xiaoguang Jia教授, Yan Qiu Chen教授, Adrian Evans博士, Colin Davies博士, Mark Jones博士, David Cunado博士, Jason Nash博士, Ping Huang博士, Liang Ng博士, David Benn博士, Douglas Bradshaw博士, David Hurley博士, John Manslow博士, Mike Grant博士, Bob Roddis, Andrew Tatem博士, Karl Sharman博士, Jamie Shutler博士, Jun Chen博士, Andy Tatem博士, ChewYean Yam博士, James HayfronAcquah博士, Yalin Zheng博士, Jeff Foster博士, Peter Myerscough博士, David Wagg博士, Ahmad AlMazeed博士, JangHee Yoo博士, Nick Spencer博士, Stuart Mowbray博士, Stuart Prismall博士, Peter Gething博士, Mike Jewell博士, David Wagg博士, Alex Bazin博士, Hidayah Rahmalan, Xin Liu博士, Imed Bouchrika博士, Banafshe ArbabZavar博士, Dan Thorpe博士, Cem Direkoglu, Sina Samangooei博士, John Bustard博士, Alastair Cummings, Mina Ibrahim, Muayed AlHuseiny, Gunawan Ariyanto, SungUk Jung, Richard Lowe, Dan Reid, George Cushen, Nick Udell, Ben Waller, Anas Abuzaina, Mus’ab Sahrim, Ari Rheum, Thamer Alathari, Tim Matthews和John Evans(提供了河马的照片), Jamie Hutton和Ben Dowling, Sina(提供了Java演示网站)。我们还感谢Mark的博士后, 除了那些已经提到的, 还有Hugh Lewis博士, Richard Evans博士, Lee Middleton博士, Galina Veres博士, Baofeng Guo博士, Michaela Goffredo博士。我们还感谢那些已从南安普敦大学电子工程专业本科与硕士、信息工程专业硕士毕业、计算机工程专业本科和硕士毕业、软件工程专业硕士毕业、计算机科学专业本科毕业的学生们。他们指出了本书的早期错误、一些需要澄清的部分以及在某些情况下志愿提供了本书的一些材料。除了南安普敦大学外, 我们仍然对三个版本的编辑, 对那些写了并提出了有帮助的建议的人, 对Daniel Cremers教授, Timor Kadir博士和Tim Cootes教授, Larry Davis教授, Pedro Felzenszwalb博士, Luc van Gool教授和Aaron Bobick教授都心存感激, 因为他们对本书的关注与改进和(或者)允许使用他们的图像。上述各位, 我们特别感谢!
最后的话
我们自己也已经从撰写本书的过程中收获良多。正如我们所知, 以前的学生已经获益, 也对本书有所贡献。我们仍然希望, 它能够激励人们投入到这样一个引人入胜、 富有回报的学科。对于许多工作者而言, 它已经证明是快乐与灵感的源泉。
Mark S.Nixon
南安普敦大学电子与计算机科学系
Alberto S.Aguado
Sportradar公司
作者简介
Mark S. Nixon是英国南安普敦大学计算机视觉系教授。他的研究兴趣包括图像处理与计算机视觉。他的团队开发了用于生物信息学与医疗图像分析的静止与运动形状提取新技术。他的团队是自动人脸识别的早期研究者, 后来是步态识别的开拓者, 最近加入了耳生物信息(ear biometrics)的研究。与谭铁牛和Rama Chellappa合作, 他们于2005年出版的著作《基于步态的身份识别》是斯普林格(Springer)生物信息学专辑的一部分。他是许多国际会议(BMVC 98, AVBPA 03, IEEE人脸与姿态FG 06, ICPR 04, ICB 09与IEEE BTAS 2010)的主席或程序委员会主席, 并做了许多邀请报告。他是IET会士与IAPR会士。
Alberto S.Aguado是Sportradar公司的首席程序员, 开发运动赛事的图像处理与实时多摄像机三维跟踪技术。以前, 他曾在Electronic Arts和Black Rock Disney Game Studios任技术运营官(technology programmer)。他还曾在英国萨里大学担任视觉、声音与信号处理中心的讲师。他在南安普敦大学获得计算机视觉/图像处理的博士学位, 并曾在INRIA PhoneAlpes从事博士后研究。
展开