数据流中概念漂移检测与分类方法研究

被引量 : 16次 | 上传用户:lvyuxuan3652008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际应用领域产生了大量的数据流,例如:电子商务交易记录、网络搜索请求、电信通话记录等,这些数据流中隐含着丰富的有价值的知识亟待挖掘。然而,由于数据流具有的快速性、无限性、连续性、多变性等特征,尤其是现实数据流中存在的概念漂移及其大量类标签缺失的问题,使得已有的分类方法面临巨大的挑战。因此,开展数据流环境下的概念漂移检测与分类方法研究具有重要的研究与应用价值。针对数据流分类任务中的概念漂移与类标签缺失等问题,本文开展了以下研究工作:(1)研究面向数据流环境的实时、低耗、抗噪的形式化描述模型;(2)基于构建的形式化描述模型,研究有效的概念漂移检测机制;(3)研究类标签缺失数据流(即不完全标记数据流)环境下的概念漂移检测与分类算法。主要研究内容如下:(1)不同于传统的静态数据,数据流具有快速、多变、无限、连续等新型数据特征,使得经典的数据挖掘分类模型如:决策树、神经网络、支持向量机等面临分类精度、时空性能等方面的挑战。为此,本文提出面向数据流环境的变体随机决策树(Variants of Random Decision Trees)的形式化描述模型,同时,基于此模型设计了ERDT (Ensembling Random Decision Trees)系列算法。与经典算法相比,该系列算法能快速适应数据流环境,提高分类精度与时空效率;(2)针对数据流中不同类型的概念漂移以及噪音在概念漂移检测中的影响,提出基于变体随机决策树模型的双阈值概念漂移检测方法,该方法能有效地从噪音数据中检测出不同类型的概念漂移,而基于此形成的数据流概念漂移检测与分类算法——ERDTC系列算法及其改进算法CDRDT在分类精度、时空开销方面比已有同类概念漂移数据流分类算法具有显著优势;(3)针对实际应用数据流中类标签大量缺失的问题,提出不完全标记数据流中概念漂移检测与分类算法——SuN算法。该算法采用增量式决策树模型将训练示例对应到叶子节点,进而在叶子节点采用聚类方法(如:k-Modes)生成聚类簇,最后利用带标签示例的信息标记无标签示例。同时,为适应数据流中的概念漂移现象,提出基于聚类簇差异度量的概念漂移检测方法。大量实验表明:与经典的数据流概念漂移检测与分类方法以及半监督学习分类方法相比,SuN算法在保证分类精度与标记无标签示例正确率的同时,能够适应数据流中的概念漂移,尤其是突变式与抽样变化的概念漂移;(4)进一步针对不完全标记数据流中重现概念漂移问题,提出面向连续属性数据流处理的重现概念漂移检测与分类算法——REDLLA算法。该算法采用k-Means在增量式构建决策树的叶子节点标记无标签示例;在此基础上,提出基于聚类簇差异度量的概念漂移检测的改进机制,即采用存储历史概念簇的机制,同时更新概念漂移的检测条件。实验表明:REDLLA算法能快速地适应重现概念漂移,同时,在分类精度、时间消耗等方面比同类的数据流分类算法具有显著优势;(5)以实际应用领域Yahoo网络购物数据与电厂电价调度数据为应用数据源,实验验证了所设计的数据流形式化描述模型、数据流概念漂移检测与分类方法(包括CDRDT、 SUN与REDLLA算法)在实际数据流分类问题处理的有效性。
其他文献
我们身处在一个网络的时代,人们生活的方方面面已经与互联网密不可分,人们在网上交友、购物,在网上搜索一切自己想要的信息。大量的网络生活往往意味着越来越多的网络数据:Fac
山羊规模养殖发展迅速,但由于青绿饲草缺乏,养殖户大都使用玉米、豆粕型精料,辅于玉米皮等粗纤维,或者全程使用颗粒型饲料饲喂。该种饲养方式山羊育肥效果好、出栏快,但易引
本文在阐述我国自古以来就重视纂修国家书目的历史传统背景下,分析了编纂《新中国70年出版总目》的客观基础,指出了当下编纂《新中国70年出版总目》的时代意义,并为实施编纂
大学生是实现中华民族伟大复兴中国梦的接班人,是全面发展中国特色社会主义的建设者,在大学生的思想政治教育中加强党史教育具有重要的现实意义。尤其是对高职院校的大学生来
该文以XX地下储气库为例,分析了垫底气的构成和来源,对垫底气不同的会计处理方法进行分析比较,按照垫底气的来源和价值补偿形式,提出了垫底气采用无形资产与存货相结合的会计
目的观察高血压心肌肥厚形成过程中肿瘤坏死因子α(TNFα)、血管紧张素(Ang)和内皮素1(ET1)水平及血管紧张素转换酶抑制剂(ACEI)与β受体阻滞剂干预作用的关系。方法采用腹主
对二元函数极值的进一步探讨孟庆贤在函数极值问题讨论中,与一元函数的情况相比,多元函数极值的讨论是比较困难的,对于二元函数的无条件极值,教材中仅给了一个定理,共内容为:设f(x)有稳
自中世纪华丽奥尔加农形式的加花装饰起,直至现在的音乐作品中都有着装饰特征可寻,然而,装饰性唯独在巴洛克时期成为主流的音乐风格之一。为何装饰性唯独在巴洛克时期成为主流风格之一,正是本文所要探讨的核心问题。本文从西方音乐史上各个时期的装饰性音乐表现入手,进而对巴洛克时期的音乐详细梳理,凸出其独特性。进而究其原因,历史背景、社会风俗、审美趣味等都是装饰性音乐风格成为巴洛克时期主流音乐风格的原因。首先,对
人才思想是司马光政治思想的重要组成部分,在<资治通鉴>的"臣光日"及其它一系列论著中有着较充分的体现.司马光认为在封建的守成和进取阶段,人才有着十分重要的作用;强调要选
初中阶段作为人生的重要成长时期,是未来人生道路的一个重要起点和人生发展的重要转折点。在初中阶段对中学生实施科学有效的生命教育,对其认知感受和体验生命的美好,对其走向社