华信教育资源网
大数据平台异常检测分析系统的若干关键技术研究
作   译   者:肖如良 出 版 日 期:2020-06-01
出   版   社:电子工业出版社 维   护   人:王晓庆 
书   代   号:TP352220 I S B N:9787121352225

图书简介:

大数据技术生态体系中的各类技术构件本身没有可自省的安全机制,构件间使用的RPC协议也没有安全机制,大数据平台的安全性面临着巨大挑战,如何高效、快速地检测大数据平台中的应用异常对提高大数据平台的安全性具有重要意义。本书在介绍相关研究工作及相关基础内容之后,主要针对大数据平台的应用层日志数据,研究了平台异常的检测与分析问题,构建了大数据平台异常的离线检测分析的方法体系及实时检测的机制。研究了基于数据流二重概念漂移检测的增量学习、分布式日志的最大频繁序列模式挖掘算法、基于最大频繁模式的动态规则库构建算法、基于Web会话流的分布式实时异常定位算法、基于最大信息系数的在线异常检测算法、基于聚类分析的离线异常检测算法、基于相邻请求的动态时间阈值会话识别算法、基于会话特征相似性模糊聚类的SFAD异常检测算法、基于贝叶斯粒子群的异常检测算法、平台异常时的推测式任务调度策略、基于实时负载的推测式任务调度算法。分析了大数据平台异常检测分析(RADA)系统在实现时所采用的大数据技术与组件技术选型,针对RADA系统进行了深入的结构化分析,介绍了基于融合架构的RADA系统概要设计,研究了RADA系统的详细设计与实现方法,完整地总结了大数据平台异常的实时检测技术与分析RADA系统的关键技术。
定价 89.0

关注公众号

关注微博

您的专属联系人更多
联系人:王晓庆
电话:010-88254113
邮箱:wangxq@phei.com.cn
关注 评论(0) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    会员上传本书资源

  • 图 书 内 容

    图书详情

    ISBN:9787121352225

    开 本:16开

    印 张:12.75

    版 次:

    页 数:204

    字 数:326

    内容简介

    大数据技术生态体系中的各类技术构件本身没有可自省的安全机制,构件间使用的RPC协议也没有安全机制,大数据平台的安全性面临着巨大挑战,如何高效、快速地检测大数据平台中的应用异常对提高大数据平台的安全性具有重要意义。本书在介绍相关研究工作及相关基础内容之后,主要针对大数据平台的应用层日志数据,研究了平台异常的检测与分析问题,构建了大数据平台异常的离线检测分析的方法体系及实时检测的机制。研究了基于数据流二重概念漂移检测的增量学习、分布式日志的最大频繁序列模式挖掘算法、基于最大频繁模式的动态规则库构建算法、基于Web会话流的分布式实时异常定位算法、基于最大信息系数的在线异常检测算法、基于聚类分析的离线异常检测算法、基于相邻请求的动态时间阈值会话识别算法、基于会话特征相似性模糊聚类的SFAD异常检测算法、基于贝叶斯粒子群的异常检测算法、平台异常时的推测式任务调度策略、基于实时负载的推测式任务调度算法。分析了大数据平台异常检测分析(RADA)系统在实现时所采用的大数据技术与组件技术选型,针对RADA系统进行了深入的结构化分析,介绍了基于融合架构的RADA系统概要设计,研究了RADA系统的详细设计与实现方法,完整地总结了大数据平台异常的实时检测技术与分析RADA系统的关键技术。

    本书目录

    第1章  绪论 1
    1.1  大数据平台异常检测分析研究的背景与意义 1
    1.2  大数据平台异常检测分析技术的国内外相关研究进展 3
    1.2.1  大数据平台异常检测分析技术的国内外研究现状 3
    1.2.2  大数据平台异常检测分析系统的国内外研究现状 5
    1.3  本书的主要贡献 7
    1.4  本书的组织结构 8
    1.5  本章小结 11
    第2章  大数据平台异常检测分析的相关基础 12
    2.1  引言 12
    2.2  日志 12
    2.3  日志预处理 13
    2.4  异常检测 14
    2.4.1  异常检测的定义 14
    2.4.2  几类常见的异常检测算法 14
    2.5  入侵检测Snort系统 16
    2.6  Web用户行为模式挖掘 17
    2.7  本章小结 19
    第3章  基于数据流二重概念漂移检测的增量学习 20
    3.1  引言 20
    3.2  二重概念漂移检测机制 20
    3.3  基于数据属性的二重概念漂移检测机制 21
    3.4  基于分类性能的二重概念漂移检测机制 22
    3.5  基于增量SVM与二重检测的概念漂移数据流分类模型TDD-ISVM 23
    3.6  TDD-ISVM算法的时间复杂度分析 25
    3.7  实验设计与结果分析 26
    3.7.1  实验数据集 26
    3.7.2  实验结果与分析 26
    3.8  本章小结 29
    第4章  分布式日志的最大频繁序列模式挖掘算法 31
    4.1  引言 31
    4.2  序列模式挖掘相关工作 32
    4.3  动机与背景 33
    4.3.1  使用分布式计算框架的动机与背景 33
    4.3.2  使用PrefixSpan算法挖掘序列模式的动机与背景 34
    4.3.3  改进PrefixSpan算法提取局部最大频繁序列的动机与背景 34
    4.3.4  改进PrefixSpan算法提取全局最大频繁序列的动机与背景 35
    4.4  分布式日志最大频繁序列模式挖掘算法描述 35
    4.4.1  基于Spark的分布式计算框架 35
    4.4.2  算法总体描述 36
    4.4.3  算法第一阶段:各节点提取局部最大频繁序列 37
    4.4.4  算法第二阶段:各节点集成,提取全局最大频繁序列 37
    4.5  实验设计与结果分析 38
    4.5.1  实验数据集 38
    4.5.2  实验结果与分析 38
    4.6  本章小结 41
    第5章  基于最大频繁模式的动态规则库构建算法 42
    5.1  引言 42
    5.2  动态Web用户访问序列数据库DWASD的构建 43
    5.3  基于DWASD的分布式PrefixSpan算法 44
    5.3.1  PrefixSpan算法改进描述 44
    5.3.2  算法的时间复杂度分析 46
    5.4  实验设计与结果分析 46
    5.4.1  实验数据集 46
    5.4.2  实验结果与分析 46
    5.5  本章小结 48
    第6章  基于Web会话流的分布式实时异常定位算法 49
    6.1  引言 49
    6.2  基于Web会话流的实时异常定位框架 50
    6.3  基于混合生物基因序列比对的异常定位AL_HBGSA算法 50
    6.3.1  基本概念 51
    6.3.2  AL_HBGSA序列比对算法 51
    6.3.3  AL_HBGSA算法的时间复杂度分析 54
    6.4  实验设计与结果分析 54
    6.4.1  实验数据集 54
    6.4.2  实验结果与分析 55
    6.5  本章小结 59
    第7章  基于最大信息系数的在线异常检测算法 60
    7.1  引言 60
    7.2  相关基础 60
    7.2.1  用户活跃度 60
    7.2.2  最大信息系数 61
    7.3  基于最大信息系数的在线异常检测算法介绍 62
    7.4  算法的时间复杂度分析 64
    7.5  实验设计与结果分析 64
    7.5.1  实验数据集 64
    7.5.2  实验结果与分析 65
    7.6  本章小结 68
    第8章  基于聚类分析的离线异常检测算法 69
    8.1  引言 69
    8.2  基本聚类算法 69
    8.2.1  K-means聚类算法 69
    8.2.2  Canopy聚类算法 70
    8.2.3  CMBK聚类算法 71
    8.3  基于改进聚类分析的离线异常检测算法 72
    8.3.1  异常指数 72
    8.3.2  CMBK4AD离线异常检测算法 73
    8.4  算法的时间复杂度分析 73
    8.5  实验设计与结果分析 73
    8.5.1  实验数据集 74
    8.5.2  实验结果与分析 74
    8.6  本章小结 76
    第9章  基于相邻请求的动态时间阈值会话识别算法 77
    9.1  引言 77
    9.2  相关基础 78
    9.2.1  页面访问时间阈值 78
    9.2.2  用户访问时间阈值 78
    9.2.3  设置页面时间阈值 79
    9.3  DAITS算法 79
    9.4  实验设计与结果分析 81
    9.4.1  实验数据集 81
    9.4.2  实验结果与分析 81
    9.5  本章小结 82
    第10章  基于会话特征相似性模糊聚类的SFAD异常检测算法 83
    10.1  引言 83
    10.2  基本工作 85
    10.2.1  会话特征中网络权重的计算 85
    10.2.2  会话特征相似性的计算 85
    10.2.3  会话数据集的模糊聚类方法 86
    10.3  会话特征相似性模糊聚类的异常检测算法 87
    10.3.1  会话的数据结构及生成 87
    10.3.2  建立用户相似性矩阵 88
    10.3.3  检测和定位异常用户 88
    10.4  实验设计与结果分析 89
    10.4.1  数据集描述 89
    10.4.2  实验结果与分析 90
    10.5  本章小结 93
    第11章  基于贝叶斯粒子群的异常检测算法 94
    11.1  引言 94
    11.2  基于朴素贝叶斯分类的异常检测模型ADM-NBC 95
    11.2.1  用户会话特征提取 95
    11.2.2  ADM-NBC的构建 96
    11.3  基于ADM-NBC的WNB-PSO算法 97
    11.3.1  加权朴素贝叶斯分类算法 97
    11.3.2  粒子群优化算法 97
    11.3.3  改进的粒子群优化算法 99
    11.3.4  WNB-PSO算法描述 99
    11.4  实验设计与结果分析 101
    11.4.1  实验数据集 101
    11.4.2  实验结果与分析 101
    11.5  本章小结 104
    第12章  平台异常时的推测式任务调度策略 105
    12.1  引言 105
    12.2  多用户作业调度器 105
    12.2.1  公平调度器 105
    12.2.2  计算能力调度器 107
    12.3  推测执行调度算法 109
    12.3.1  Hadoop-Original推测执行调度算法 110
    12.3.2  LATE推测执行调度算法 110
    12.3.3  基于备份任务完成时间的推测执行调度策略 111
    12.3.4  Mantri系统推测执行调度策略 112
    12.4  本章小结 112
    第13章  基于实时负载的推测式任务调度算法 113
    13.1  引言 113
    13.1.1  Hadoop-Original推测式任务调度算法的不足 113
    13.1.2  LATE推测式任务调度算法的不足 113
    13.2  推测式任务调度算法改进 114
    13.2.1  基于混合进度比的任务进度估算方法 114
    13.2.2  慢任务判定方法 115
    13.2.3  慢节点判定方法 116
    13.3  节点负载分级模型 117
    13.4  基于实时负载的推测式任务调度算法流程 119
    13.5  实验设计与结果分析 120
    13.5.1  实验平台及部署 120
    13.5.2  测试作业选择及评估方式 121
    13.5.3  实验方案 122
    13.5.4  实验结果与分析 122
    13.6  本章小结 126
    第14章  大数据Lambda架构与微服务架构技术选型 127
    14.1  引言 127
    14.2  大数据技术Lambda架构 127
    14.2.1  Hadoop技术基础 127
    14.2.2  Spark技术生态体系 129
    14.2.3  基于Flume+Kafka的大数据收集组件 130
    14.2.4  基于Spark的大数据处理组件 131
    14.2.5  基于HBase的大数据存储与管理组件 131
    14.2.6  基于MLlib的大数据分析及挖掘组件 131
    14.2.7  基于Spark Streaming的大数据流处理组件 132
    14.3  微服务架构的有关组件技术选型 132
    14.3.1  微服务架构 132
    14.3.2  Spring Boot 133
    14.3.3  MyBatis 133
    14.3.4  Spring Cloud 134
    14.4  本章小结 135
    第15章  大数据平台异常检测分析系统的结构化分析 136
    15.1  引言 136
    15.2  问题与场景描述 136
    15.3  初步需求分析 137
    15.4  系统数据流 137
    15.4.1  顶层数据流 137
    15.4.2  第一层数据流 138
    15.4.3  第二层数据流 138
    15.4.4  第三层数据流 139
    15.5  功能需求 139
    15.6  非功能需求 140
    15.7  本章小结 140
    第16章  基于融合架构的RADA系统概要设计 141
    16.1  引言 141
    16.1.1  RADA系统逻辑架构的初步构建 141
    16.1.2  RADA系统物理架构的初步构建 141
    16.2  RADA系统逻辑架构设计 142
    16.2.1  基于微服务架构的RADA系统逻辑架构设计 143
    16.2.2  基于Lambda架构的RADA系统逻辑架构设计 143
    16.2.3  基于微服务架构和Lambda架构的RADA系统技术架构设计 143
    16.3  运行部署环境 144
    16.3.1  系统运行网络环境 144
    16.3.2  系统运行硬件环境 145
    16.3.3  系统运行软件环境 145
    16.4  日志预处理子系统概要设计 145
    16.4.1  上传离线日志 146
    16.4.2  处理离线日志 147
    16.4.3  获取实时日志 148
    16.4.4  处理实时日志 148
    16.4.5  日志规范化 149
    16.4.6  处理规范化日志 150
    16.4.7  添加日志模板 151
    16.4.8  处理日志模板 152
    16.5  监控告警子系统概要设计 153
    16.5.1  设置告警方式 154
    16.5.2  离线异常检测 154
    16.5.3  实时异常检测 156
    16.5.4  查询异常信息 156
    16.5.5  更新规则库 156
    16.6  数据库设计 158
    16.6.1  数据库实体关系分析 158
    16.6.2  数据字典 159
    16.7  本章小结 162
    第17章  RADA系统的详细设计与实现方法 163
    17.1  引言 163
    17.2  RADA系统架构的实现机制 163
    17.2.1  RADA系统中微服务架构的实现 163
    17.2.2  RADA系统中Lambda架构的实现 164
    17.3  日志预处理的详细设计 164
    17.3.1  控制层设计 164
    17.3.2  服务层设计 166
    17.3.3  持久化层设计 168
    17.4  监控告警模块的详细设计 169
    17.4.1  控制层设计 169
    17.4.2  服务层设计 170
    17.4.3  持久层设计 171
    17.5  核心用例的实现 172
    17.5.1  上传离线日志 172
    17.5.2  离线日志规范化处理 173
    17.5.3  离线异常检测 174
    17.5.4  获取实时日志 177
    17.5.5  实时日志规范化处理 178
    17.5.6  实时异常检测 178
    17.6  本章小结 179
    第18章  总结与展望 180
    18.1  总结 180
    18.2  展望 181
    附录A 182
    参考文献 185

    展开

    前     言

    移动互联网、社交网、云计算、物联网的飞速发展促使大数据的各种应用迅速增多,搭建在大数据平台上的各类应用服务已成为含有大量用户隐私信息和体现运营商利益的共同体,应用层的安全问题变得越来越严峻。然而国内外相关的技术往往针对分布式集群系统的下层,很少针对分布式集群系统的上层,对于系统应用中的异常检测分析而言,实时检测与定位异常的能力较弱。分布式异常检测技术是当前学术界与产业界的广泛研究热点,但实用的成果还不多。在此背景下,针对大数据平台准确地检测异常并发现其根源,直接关系到大数据平台运营商及平台用户的广泛利益,因此,研究大数据平台在应用层的各类异常检测分析方法具有重要意义。
    本书以大数据平台上层应用的异常检测关键技术为主要研究内容,一方面,将离线分析方法和实时检测方法相结合,研究大数据平台异常检测分析的关键技术;另一方面,对异常检测系统研发的关键模块进行详细描述。
    全书共18章,第1章介绍对大数据平台进行异常检测分析的背景与意义、相关研究进展、本书的主要贡献与组织结构等;第2章介绍大数据平台异常检测分析的相关基础;第3章介绍基于数据流二重概念漂移检测的增量学习;第4章介绍分布式日志的最大频繁序列模式挖掘算法;第5章介绍基于最大频繁模式的动态规则库构建算法;第6章介绍基于Web会话流的分布式实时异常定位算法;第7章介绍基于最大信息系数的在线异常检测算法;第8章介绍基于聚类分析的离线异常检测算法;第9章介绍基于相邻请求的动态时间阈值会话识别算法;第10章介绍基于会话特征相似性模糊聚类的SFAD异常检测算法;第11章介绍基于贝叶斯粒子群的异常检测算法;第12章介绍平台异常时的推测式任务调度策略;第13章介绍基于实时负载的推测式任务调度算法;第14章介绍大数据Lambda架构与微服务架构技术选型;第15章介绍大数据平台异常检测分析系统的结构化分析;第16章介绍基于融合架构的RADA系统概要设计;第17章介绍RADA系统的详细设计与实现方法;第18章是总结与展望。
    本书由肖如良著,较全面地介绍国内外异常检测分析领域的相关研究和成果,研究异常检测分析技术实现过程中需要解决的若干关键技术,这些技术是支撑大数据平台系统安全的核心技术。大数据平台异常检测分析的若干方法及实现RADA系统的具体方法,能为产业界提供应用示范。本书中的多项工作已申请了发明专利。
    本书作者与福建榕基软件股份有限公司合作,受福建省科技计划项目的资助,开展了“大数据平台异常检测分析的关键技术研发及产业化”(2016H7006)的立项研究,本书全面地总结了本项目的研究成果及拓展的主要内容。
    本书虽然几易其稿,但是错误仍然不可避免。梅忠、李奕诺、彭行雄、丘志鹏、张锐、曾令、苏家威、陈雄等研究生同学对本书中的关键技术进行了编程实现,付出了努力,对本书部分内容的撰写也提供了很重要的帮助。电子工业出版社的王晓庆编辑为本书的出版做了大量的工作,对此深表感谢。最后,特别感谢我的家人对我的支持。
    本书成书仓促,错误之处敬请各位读者批评指正。

    肖如良
    xiaoruliang@fjnu.edu.cn
    2020年5月
    展开

    作者简介

    本书暂无作者简介
  • 样 章 试 读
    电子教材
  • 图 书 评 价我要评论
华信教育资源网