面向数据流的高效用项集挖掘算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:jinz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据存储技术的快速发展,从大量数据中发现潜在的、有用的信息成为巨大的挑战。特别是随着数据流广泛呈现在各个应用领域,对数据流的挖掘成为了目前数据挖掘研究领域的一个新的方向,与传统的静态数据库不同,数据流是连续的、无限的、高速的。数据流挖掘中一个重要的研究方法是频繁项集挖掘,但传统的频繁项集挖掘以项集的支持度来衡量其重要性,挖掘过程中会丢失一些非频繁但效用高、用户更加感兴趣的项集,因此在数据流中挖掘高效用项集成为一个新的研究课题。同时,已存在的高效用项集挖掘算法在挖掘过程中产生大量的候选项集,使用户很难从大量模式中筛选出有用的信息。针对这种情况,本文对数据流中高效用项集挖掘问题进行分析研究。首先对数据流挖掘技术及高效用项集挖掘问题给以描述,对目前存在的高效用项集挖掘算法从数据结构和处理方法方面进行总结和阐述,指出当前数据流高效用项集挖掘算法所存在的问题,从而提出本论文的研究点。本文提出一种数据流高效用项集挖掘算法HUIDE,弥补了传统高效用项集挖掘算法的不足,能更好的满足用户实际应用的决策需求。该算法基于已存在的高效用项集挖掘算法,综合考虑数据流数据信息特征和用户对项集效用(利润)的要求,首先定义一种有效的效用度量方法,该方法设定项集的效用不仅考虑项集的支持度,更注重项集的实际效用。然后在数据流中采用基于时间的滑动窗口技术更加准确的描述数据分布,窗口滑动过程中为数据信息构建一种树结构HUI-tree,树中各节点采用项目加权效用的降序保存数据信息,使得构建的树结构更加的紧凑,有效的减少候选项集的产生。最后采用自底向上策略遍历整个树结构挖掘高效用项集。该算法通过扫描一次数据库获取挖掘结果,为挖掘过程减少了时间和空间的消耗。在人工和真实数据流上的实验结果表明该算法能够有效地挖掘高效用项集。
其他文献
软件测试的目标是为了发现程序中潜在错误,其中的关键因素就是如何快速自动化的生成测试数据,传统的人工测试耗费大量人力物力,因此自动化测试技术越来越受到人们的重视。测试数
针对应用时间序列方法在处理数据不足、缺失和信息模糊性的问题,本文在Type-2模糊时间序列预测模型基础上,首先,将模糊聚类的算法引入Type-2模糊时间序列模型中,利用物以类聚的思
人脸识别是图像处理和计算机视觉领域的一项重要研究内容,其主要目的是通过匹配数据库来检测输入的测试人脸图像属于哪一类别。脸部识别率指的是正确识别出的脸部图像的比率。
随着高性能计算的发展,超级计算机在功率和能耗方面的不足正在逐步显露。目前超级计算机的系统功耗普遍在5000KW以上,而地球模拟器的峰值功耗则达到了12MW[1],即一天的耗电量可
当今社会,计算机软件与人们的生活息息相关,人们对软件质量的要求也越来越高。软件在运行时发生失效,如何实现快速、高效的、准确的软件故障定位仍是学术界和工业界研究的关
随着计算机网络技术的迅猛发展,网络时间隐通道受到越来越多的关注与研究。网络时间隐通道以数据包可携带的时间变量(time variable)作为信息的载体,通信双方通过改变/观察双方
近年来,随着数据收集与存储技术的提高,人们收集到的数据量呈指数速度增长,传统的离群点检测方法在处理大规模数据集时已开始表现出极大的局限性。大规模数据集具有数据数量大、
社交网络起源较早,伴随无线定位技术的成熟、移动终端设备的普及以及移动互联网的发展,移动社交网络迅速崛起。空间定位技术的发展使得基于位置服务(Location-based service,LBS
随着遥感应用领域及范围的日益扩大,遥感产品生产的规模也越来越大,为了解决遥感产品生产的专业化、规模化、快速化等问题,需要设计构建可读性强,且能被计算机接受的遥感产品生产
在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械