数据流分类中概念漂移问题的研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:lzzwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展和日益普及,特别是数据库技术的广泛应用,各行各业都产生了大量的数据,而如何从这些海量数据中寻找有价值的信息则成为了一项非常艰巨的任务。数据挖掘技术正是为解决这一问题而出现的,并且已逐渐成为当前计算机领域研究的热点之一。   数据挖掘(Data Mining),又称为数据库中的知识发现(简称KDD),是从大量数据中提取或者“挖掘”知识的一个过程,而其中的分类问题已是在数据挖掘和机器学习领域广泛研究的问题。分类方法是一种基于监督的学习方法,是使用一组已知类编号的数据集来预测另一组未被编号的数据集。而网络等信息技术的迅速发展和广泛应用产生了大量的数据流,如:超市交易记录、网络搜索请求、电信通话记录等。这些数据流中隐含着丰富的有价值的知识亟待挖掘。然而,由于数据流具有快速性、无限性、连续性、多变性等特征,特别是其中隐含的概念漂移现象使得大多数传统的分类算法无法应对数据中概念的快速变化而导致分类器精度大幅下降,并且因为传统数据分类需要多遍扫描数据库以及存储全部数据使其并不能应用于数据流这种需要高速数据处理的环境。所以,针对数据流的分类算法已成为数据分类领域中的重要组成部分。   目前,数据流分类的软件已经被广泛地运用到了各行各业,如天文系统软件、地理信息系统软件、实时商业决策支持软件,还有工业控制软件都能看到数据流分类的应用,但是还有很多潜在的应用没有被挖掘出来。比如,对城市中安全探测器所传出的数据的分类,在科学研究中,能通过实时分类分析,对实验任务的变更和实验参数的改变等都是可以起到指导作用的。而在金融市场中的应用则更为丰富,如对股票信息和期货信息的分类都能起到很有效的结果。因此,研究高效的数据流分类知识发现算法成为重要的研究课题,特别对于数据流中概念漂移问题的研究将对数据流上的分类效果产生巨大的影响。   本文首先分析了数据流中的数据分类问题,然后着重讨论了数据流分类中的概念漂移问题。在此基础上,通过分析单窗口概念漂移检测模型,提出了基于多窗口的概念漂移检测及处理算法,并通过实验证明了该算法适用于数据流中概念变化较为稳定的情况。随后,通过使用状态跳转概念,构建了基于状态跳转的概念漂移检测及处理算法,该算法使用状态跳转矩阵对数据流上的概念漂移做出快速预测,并通过预测结果更新基分类器。通过实验与结果分析,证明了该算法在数据流上有大量重复概念出现时有着较高的效率。具体地,本文主要开展了以下研究工作:   (1)概述了数据流的定义、特点、应用领域、理论基础及其数据处理方法;阐述了概念漂移问题的定义、分类和度量标准;详细总结与分析了数据流及其概念漂移问题的国内外研究现状及存在的主要问题,探讨了概念漂移研究中的关键问题及技术。   (2)通过对单窗口概念漂移检测模型的分析,引入了多窗口概念漂移检测与处理算法。多窗口处理模型是使用多个滑动窗口对数据流进行取样,通过不同长度的窗口适应数据流上不同变换速率的概念漂移。通过实验与结果分析可知,多窗口处理模型在数据流中概念漂移变化速度较为稳定时表现出了极高的算法效率。   (3)为处理数据流中概念重复出现的情况,引入了状态跳转概念。通过使用概念漂移检测模型、状态跳转模型及低频概念消减模型构建了基于状态跳转的概念漂移检测及处理算法。该算法通过使用状态跳转矩阵,对数据流上将要出现的概念进行预测,并使用预测的数据对基分类器进行快速更新,以适应数据流上概念的变化。通过实验与结果分析可以证明此算法可行,并在数据流上概念总数较少且重复出现的情况下,有着极高的算法效率与分类准确率。
其他文献
文档作为信息的载体,在人类历史和社会进步中发挥着重要作用。近年来随着电子技术的发展,电子文档日益普及。同时网络技术的迅速发展,手持移动设备的成本愈加低廉、性能愈加强大
自20世纪80年代末利用卫星技术开展对候鸟迁徙进行跟踪研究以来,极大地促进了候鸟迁徙研究的发展,并取得了很大的成功。针对青海湖地区爆发的禽流感疫情,开展了青海湖候鸟的卫星
学位
黑龙江出版的《老年日报》2004 年3月18日“红叶”专栏刊《抒怀》诗:“人生七十古来稀,我把古稀当孩啼。不断奉献不畏苦,珍惜今天好时机。”作者是在抒发胸怀,虽然年 “Aged
民用飞行器重要的性能都是随着飞行器质量的增加而下降的,对于飞艇这类几乎完全由气体浮力维持升力的飞行器,其性能与质量的矛盾尤为突出.以复合材料制造的夹层结构和帽型筋
随着应用软件规模的日益增大,软件的运行环境越来越复杂,应用软件使用的中间件、第三方程序库越来越多,软件中包含的缺陷也越来越多。及时发现程序中的缺陷是软件领域的重要研究
近年来,随着软件在社会生活中的作用越来越重要,软件的正确性也越来越受到人们的重视。然而如何保证软件的正确性却是一个一直都没有得到很好解决的问题。在上世纪六七十年代人
作为e-learning许多应用之一的智能教学系统,是现代教育技术的一个重要研究领域。随着网络和多媒体课件的发展,学习资源也越来越丰富,这样给学习者的学习选择提供了很大的灵活性
期刊
说到干部,不需要引经据典,不必请专家答疑解惑,大家都知道是什么职业。用老百姓的话来说,是吃皇粮的,坐小轿车的,手里有大印的,主席台上讲话的,是为群众办事的,这都没错。不
Web的永久保存具有重要意义,国际范围内许多组织和政府机构相继建立了大型的历史网页存档系统来永久保存网页,如Internet Archive和Web InfoMal。而如何对蕴含在海量网页存档系