图书简介:
第1章 绪论 11.1 大数据的特点 11.2 大数据平台 21.3 医疗健康大数据的应用需求 31.4 国外研究现状及趋势 51.5 国内研究现状及趋势 6第2章 大数据平台Hadoop的系统构成 92.1 Hadoop组件 92.1.1 HDFS 92.1.2 MapReduce 102.1.3 HBase 112.2 伪分布式Hadoop环境部署 122.3 分布式Hadoop环境部署 162.4 分布式MongoDB环境部署 182.4.1 MongoDB 182.4.2 环境设置 202.4.3 集群搭建 202.4.4 挂载磁盘 26第3章 大数据平台Hadoop的安全机制 283.1 概述 283.2 Hadoop安全机制 293.2.1 基本的安全机制 293.2.2 总体的安全机制 303.3 Hadoop组件的安全机制 313.3.1 RPC安全机制 313.3.2 HDFS安全机制 313.3.3 MapReduce安全机制 343.4 Hadoop的安全性分析 363.4.1 Kerberos认证体系的安全问题 363.4.2 系统平台的安全问题 363.5 Hadoop安全技术架构 373.6 安全技术工具 393.6.1 系统安全 393.6.2 认证授权 403.6.3 数据安全 423.6.4 网络安全 443.6.5 其他集成工具 45第4章 大数据系统安全体系 474.1 概述 474.2 相关研究 474.3 大数据面临的安全挑战 504.4 大数据安全需求 514.5 大数据安全关键技术 534.6 大数据系统安全体系框架 56第5章 大数据系统身份认证技术 595.1 概述 595.2 Kerberos认证体系结构 595.3 身份认证方案 615.4 身份认证方案实现 635.5 Kerberos常用操作 685.5.1 基本操作 685.5.2 操作流程 69第6章 大数据系统访问控制技术 716.1 概述 716.2 基于角色的访问控制方案 726.3 XACML语言框架 736.3.1 访问控制框架 736.3.2 策略语言模型 746.4 基于XACML的角色访问控制方案实现 756.4.1 角色访问控制策略描述 756.4.2 角色访问控制策略实现 766.4.3 角色访问控制策略测试 776.5 Sentry开源组件 796.6 基于Sentry的细粒度访问控制方案 806.6.1 加入环境属性约束的访问控制模型 806.6.2 MySQL安装配置 816.6.3 Hive安装配置 836.6.4 Sentry安装配置 856.6.5 细粒度访问控制模块实现 88第7章 大数据系统数据加密技术 937.1 概述 937.2 透明加密 937.3 存储数据加密方案实现 957.3.1 实现步骤 957.3.2 参数说明 977.3.3 功能测试 977.4 SSL协议 987.4.1 SSL协议体系结构 987.4.2 SSL协议工作流程 997.4.3 Hadoop平台上SSL协议配置 997.5 传输数据加密方案实现 1007.5.1 传输数据加密需求 1007.5.2 Hadoop集群内部节点之间数据传输加密配置 1017.5.3 Hadoop总体加密配置 102第8章 大数据系统监控技术 1038.1 概述 1038.2 Ganglia开源工具 1038.3 Ganglia环境部署 1048.3.1 Ganglia测试集群rpm包安装方式 1048.3.2 Ganglia测试集群编译安装方式 1098.4 Ganglia配置文件 1128.4.1 gmond配置文件 1128.4.2 gmetad配置文件 1218.4.3 gweb配置文件 1228.5 基于Ganglia的状态监控方案实现 1228.5.1 实现步骤 1228.5.2 功能测试 1238.6 基于Zabbix的监控报警方案实现 1248.6.1 Zabbix简介 1248.6.2 Zabbix安装配置 1248.6.3 Web界面操作 127第9章 大数据系统审计技术 1369.1 概述 1369.2 审计方案 1379.3 开源软件ELK 1389.4 ELK安装配置 1399.4.1 Elasticsearch安装 1399.4.2 Logstash安装 1419.4.3 Kibana安装 1429.5 基于ELK的审计方案实现 1439.5.1 实现步骤 1439.5.2 功能测试 143第10章 大数据系统一体化安全管理技术 14610.1 概述 14610.2 网络结构设计 14610.3 安全模块设计 14810.4 软件开发架构 15110.5 软件运行流程 15210.6 软件界面 15310.7 软件测试 159第11章 大数据系统属性基加密关键技术 16311.1 概述 16311.2 预备知识 16411.2.1 群知识 16411.2.2 双线性配对 16511.2.3 拉格朗日插值定理 16511.2.4 访问结构 16511.3 属性基加密方案 16711.3.1 传统的属性基加密方案 16711.3.2 改进的属性基加密方案 16811.4 属性基加密方案的实现 16911.4.1 属性基加密算法 16911.4.2 属性基加密模块 17011.5 基于属性的大数据认证加密一体化方案 17211.5.1 方案整体架构 17211.5.2 方案运行流程 17311.5.3 安全性分析 17511.5.4 功能测试 17511.5.5 性能测试 17611.5.6 方案总结 177第12章 大数据系统远程数据审计关键技术 17812.1 概述 17812.2 远程数据审计方案 17912.2.1 基于两方模型的远程数据审计方案 17912.2.2 基于三方模型的远程数据审计方案 18012.2.3 远程数据审计方案需求 18112.3 预备知识 18112.3.1 密码学基础 18212.3.2 数据结构 18212.3.3 分布式计算框架 18412.3.4 系统审计模型 18512.4 单用户远程动态数据审计方案 18612.4.1 方案描述 18612.4.2 方案分析 18912.4.3 方案总结 19212.5 支持并行计算的单用户远程动态数据审计方案 19212.5.1 方案描述 19212.5.2 更新算法描述 19312.5.3 并行计算算法设计 19612.5.4 方案分析 19912.5.5 方案总结 20112.6 多用户远程动态数据审计方案 20112.6.1 方案描述 20212.6.2 动态更新 20412.6.3 方案分析 20612.6.4 方案总结 209第13章 大数据系统隐私保护关键技术 21013.1 概述 21013.2 隐私保护方案 21113.2.1 隐私保护研究现状 21113.2.2 隐私保护聚类技术研究现状 21213.2.3 隐私保护分类技术研究现状 21313.3 预备知识 21413.3.1 k-means算法 21413.3.2 决策树C4.5算法 21513.3.3 差分隐私 21613.4 面向聚类的隐私保护方案 21613.4.1 基于MapReduce框架的优化Canopy算法 21713.4.2 基于MapReduce框架的DP k-means算法 21813.4.3 实验结果 21813.5 面向分类的隐私保护方案 21913.5.1 等差隐私预算分配 22013.5.2 基于MapReduce的差分隐私决策树C4.5算法 22013.5.3 实验结果 22113.6 方案总结 223参考文献 224
展开
构建一个安全可靠的大数据平台是大数据应用的基础。在以Hadoop为主的大数据平台设计之初,设计人员并没有考虑到安全问题。如今的大数据生态系统中存在着许多安全隐患,大数据平台的安全性面临很大的挑战。目前,大数据系统应用和大数据分析类书籍较多,但专门介绍大数据安全的书籍较少,而且系统性、实用性不强。随着大数据系统的快速应用,大数据系统安全的重要性日益明显。为了促进大数据系统安全体系的开发效率,作者编写了本书,由浅入深地介绍大数据系统安全技术的实际配置及其技术难点。本书的特色主要体现在以下三个方面。特色一:大数据安全技术体系完整。本书依据大数据安全体系,以主流的大数据平台Hadoop为例,介绍各种安全技术的实施,包括认证、访问控制、数据加密、监控、审计及安全管理。特色二:覆盖大数据安全前沿技术。本书不仅介绍了实用的配置和方便的管理软件开发,而且探讨了属性基加密、远程数据审计、隐私保护等方面大数据安全的关键技术,为大数据安全技术深入研究提供扩展空间。特色三:选取大数据安全平台的典型案例。依托承担的国家重点研发计划项目“生殖健康大数据深度分析与安全保障技术研究”,本书结合医疗健康的实际需求,设计可行的大数据系统安全保障技术,支持医疗健康大数据平台的管理和扩展。全书分为13章,第1章为绪论,介绍大数据的特点和国内外研究现状;第2章为大数据平台Hadoop的系统构成,介绍Hadoop组件及伪分布式Hadoop、分布式Hadoop、分布式MongoDB环境部署;第3章为大数据平台Hadoop的安全机制,介绍Hadoop安全机制、Hadoop组件的安全机制、Hadoop的安全性分析、Hadoop安全技术架构及安全技术工具;第4章为大数据系统安全体系,介绍大数据面临的安全挑战、大数据安全需求、大数据安全关键技术、大数据系统安全体系架构;第5章为大数据系统身份认证技术,介绍Kerberos认证体系结构、身份认证方案及其实现;第6章为大数据系统访问控制技术,介绍基于角色的访问控制、XACML语言框架、Sentry开源组件、访问控制方案实现;第7章为大数据系统数据加密技术,介绍透明加密和SSL协议、存储数据和传输数据加密方案实现;第8章为大数据系统监控技术,介绍Ganglia开源工具、Ganglia环境部署、Ganglia配置文件、基于Ganglia的状态监控方案实现、基于Zabbix的监控报警方案实现;第9章为大数据系统审计技术,介绍审计方案、开源软件ELK、ELK安装配置及基于ELK的审计方案实现;第10章为大数据系统一体化安全管理技术,介绍网络结构设计、安全模块设计、软件开发架构、软件运行流程、软件界面及软件测试;第11章为大数据系统属性基加密关键技术,介绍属性基加密方案及其实现、基于属性的大数据认证加密一体化方案;第12章为大数据系统远程数据审计关键技术,介绍单用户、多用户远程动态数据审计方案;第13章为大数据系统隐私保护关键技术,介绍面向聚类的隐私保护方案和面向分类的隐私保护方案。本书由尚涛副教授、刘建伟教授编著。北京航空航天大学大数据安全研究组的硕士研究生庄浩霖、陈星月、赵铮、陈然一鎏、张锋、姜亚彤,本科生舒王伟、周博洋、陈志强、张丽颖、王庆麟、黄子航等对于本书的编写做了大量的研究工作,其中赵铮、张锋、姜亚彤等进行了大量的校正工作;北京航空航天大学路新喜、王静远老师对于本书的编写提供了很多技术支持,关振宇、毛剑、伍前红、修春娣等老师为本书的顺利出版做了大量的支持工作。国家卫生健康委科学技术研究所与北京航空航天大学共同承担国家重点研发计划项目,搭建高等级医疗健康大数据基础平台,加强医疗健康大数据与人工智能关键技术创新研发。特别感谢国家卫生健康委科学技术研究所的马旭研究员、杨英副研究员、彭左旗老师在本书编写过程中给予的大力支持。奇安信科技集团股份有限公司和三六零科技股份有限公司作为北京航空航天大学的战略合作伙伴,积极开展大数据安全方面的合作,共建北航-360大数据协同安全技术国家工程实验室智能安全联合实验室,依托教育部产学合作协同育人项目,为北京航空航天大学构建的大数据系统提供技术支持和安全风险深度评估,为本书的出版做了大量的工作,在此深表感谢。本书在编写过程中得到了电子工业出版社和北京航空航天大学的大力支持、鼓励和帮助,并且得到了国家重点研发计划项目(No. 2016YFC1000307)、教育部产学合作协同育人项目和国家自然科学基金资助项目(No. 61571024)的资助,在此表示诚挚的谢意。本书参考、引用了国内外相关书籍、文献及有关网站的内容,在此对原作者表示衷心的感谢。由于作者水平有限,书中难免存在疏漏与不妥之处,恳请广大读者和同行专家批评指正。
著 者 2019年7月
展开