海量动态数据流分类方法研究

被引量 : 28次 | 上传用户:lhmsgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题作为数据挖掘领域一个经典而重要的课题,一直受到学术界的关注。然而,随着物联网的推广以及“大数据”时代的到来,传统数据分类方法正面临新的挑战,首当其冲的就是数据形式的变化,从传统的静态数据向动态的数据流形式转变。与静态数据相比,动态数据流具有三个特点,即海量性、实时性和动态变化性,这些特点大大增加了数据流分类的难度。因此如何设计一种数据流分类模型,不仅能够满足数据流特点,而且能够对数据流进行有效分类,成为当前学术界研究的热点问题。本文主要从数据流的三种特点(海量性、实时性和动态变化性)入手,对数据流分类问题展开研究。针对数据流特点,本文提出了三种数据流分类模型:(1)针对数据流海量性特点,设计了基于集成学习思想的数据流分类模型,利用多分类模型对海量数据进行分类;(2)针对数据流实时性特点,设计了基于增量式学习的数据流实时分类模型,通过控制训练集大小,从而加速模型更新速度,满足实时性分类的要求;(3)针对数据流动态变化性问题,提出了一种基于概念漂移检测的数据流分类模型,将概念漂移检测机制与分类模型相结合,提高分类模型的抗概念漂移能力。论文主要完成的具体工作如下:(1)针对数据流海量性特点所造成的数据内部复杂,且传统单模型分类模型对于复杂数据环境学习的不充分问题,提出了一种基于集成学习思想的数据流分类模型。该模型以支持向量机(Support vector machine, SVM)模型为基础,通过结合不同核函数构建集成学习模型。然后,使用自组织映射(Self-organizing map, SOM)算法对个体分类器给出的分类结果进行汇总,最终得到分类结果。最终通过实验验证所提出基于集成学习的数据流分类模型的有效性。(2)针对数据流实时性特点,受到集成学习思想的启发,设计了一种基于轮转式结构的增量式数据流分类模型。该模型将多个SVM模型嵌入到轮转式框架中,且SVM模型使用增量式学习方法进行更新,通过对训练集样本数量进行控制,只对未被学习过的数据进行学习,而对已学习过的数据则不会重复学习,从而减少训练集中样本数量,加速分类模型更新速度,满足数据流实时性分类的要求。(3)针对数据流动态变化性特点(概念漂移),提出了一种基于概念漂移检测的数据流分类模型,对数据流分类模型无法适应概念漂移现象的问题进行解决。该模型在分类之前,使用信息熵对数据块是否发生概念漂移进行判断,对已出现过的历史概念,使用一种分类器池机制对其进行保存,使得分类模型具有更强的抗概念漂移的能力。在此基础上,设计一种概念漂移可视化方法,对数据流中的概念以及不同概念之间的关系进行展示,力求从概念层面对数据流概念漂移现象进行理解和分析。本文的主要成果在于对数据流三个特点,即海量性、实时性和动态变化性,进行深入研究,探索了集成学习分类结果汇总、增量式学习机制和概念漂移检测等问题。提出了一种SVM-SOM的集成数据流分类模型,利用多SVM模型对数据流进行分类,并使用SOM模型对类别结果进行汇总;提出了基于轮转式框架的数据流增量式分类模型,通过使用增量式学习方法对模型更新,有效减少模型更新所消耗时间,提高实时分类效率;提出了基于概念漂移检测的数据流分类模型,将概念漂移检测方法融入分类模型中,提高分类模型抗概念漂移的能力。这些研究有效地提高了数据流分类效果和性能,对今后涉及数据流分类的相关问题提供了有益的借鉴。
其他文献
生物多样性是人类赖以生存和发展的重要基础。目前已有的多项全球性协议未能有效阻止生物多样性不断下降的态势,近些年生物多样性丧失和生态系统退化问题受到国际社会的重点
依法治国是世界各国对历史的总结,也是现实发展的需要。要做到司法治国就要做好司法工作,而要做好司法工作,就离不开对司法的监督。对司法的监督一是需要行之有效的外部监督,
证券市场的卖空交易机制通常具有稳定市场、发现价格以及提供流动性和调控 工具等基本功能。本文在介绍境外证券市场卖空交易机制实证研究的基础上,对境外证券市 场卖空交易
本文分析了CEO薪酬增长的促进和制约因素 ,并分析了各因素的之间关系 ,认为CEO薪酬失控性增长的原因在于公司内部权力失衡。
超临界流体萃取作为一种新型的化工分离技术,能够有效地运用于一些天然产物的有效成分提取。萃取过程中各操作参数的影响特点及实验参数的优化一直是学者们研究的重点。本文
城市街道作为城市系统的基础单元,既是城市公共空间的重要组成,也是组织城市公共生活的媒介。然而,随着城市化的快速发展,当今城市街道已出现背离活力的趋向,传统的街道和公
随着全球化生产体系的建立和发展,企业之间的竞争愈加激烈,成本管理作为一个重要的战略武器越来越为人们所重视。公开资料显示,在世界范围内制造企业的成本构成中,50%—80%为
本文在分析我国PPP项目利益分配研究现状的基础上,运用利益相关者理论,基于对PPP项目运行方式的研究,对PPP项目利益相关者进行了定义和分类,并参考生物细胞的组织结构创新性