面向数据流的频繁模式挖掘算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:zb_lion
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,数据挖掘成了当前重要的研究方向,通过近十年的努力,数据挖掘技术已经相当成熟。然而,近几年来出现了一种新的数据模型,即数据流,这种数据模型广泛存在于现实生活中,如网站服务器的日志文件、股票交易、网络传感器、天气和环境监测等都产生大量的数据流。在数据流环境中进行挖掘是一项具有挑战性的工作,传统的数据挖掘技术只能处理静态数据,对这种大量的、快速的数据流却无能为力。频繁模式挖掘是数据挖掘中一项非常重要的任务,最近几年,在数据流频繁模式挖掘领域已经产生了大量的研究成果。然而这些研究都需要大量的存储空间,挖掘效率也不够高,尤其是无法对新到来的数据进行实时更新。针对这些问题,本文提出了一种新的数据流频繁模式挖掘方案,包含相应的数据过滤、编码方法、新的概要数据结构和挖掘算法,并实现了面向数据流的频繁模式挖掘系统。首先,提出基于Hash结构的数据过滤和编码方法。针对数据流快速、无限的特征,通过滑动窗口来对数据流进行缓冲,从而限制每次处理的数据量。通过Hash表对基本窗口中的数据进行过滤和重编码,进一步减小挖掘的数据量,而且简化数据类型,得到项目之间的规范顺序。这些有助于构造和更新前缀树结构。其次,提出了一种新的概要数据结构NCH-Tree。在NCH-Tree结构中引入B+树的思想,把所有事务的时间信息存放在一个链表中,方便进行更新。再次,在数据过滤、编码和概要数据结构NCH-Tree的基础上,进一步提出数据流频繁模式挖掘算法,很好地满足了数据流频繁模式挖掘的需求。最后,设计并实现了面向数据流的频繁模式挖掘系统。在该系统中,设计了一种概要数据结构来存储频繁模式集,通过此结构,挖掘算法可以和用户进行交互,根据用户的不同需求返回不同的结果。通过实验可以发现,本文所提出的面向数据流的频繁模式挖掘算法能很快对新到来的数据进行更新并保证较高的挖掘准确性,同时,此算法的挖掘效率高于同类算法。
其他文献
科技的飞速发展推动着医疗事业的进步,老龄化社会的加剧又给医疗事业带来前所未有的挑战,不仅医疗机构所能提供的服务远不能满足老龄群体的需求,而且老年病几乎都需要长期的
人脸检测与识别技术是近年来图象处理、模式识别、人工智能等领域内最为活跃的研究课题之一,它具有广泛的应用领域和重要的理论研究价值。人脸识别与指纹,虹膜等生物特征识别
系统通过前端设备对古建筑室内外场景进行监控与采集。所有的前端设备组成一个Zig Bee网络,网络中的协调器通过无线以太网将各个前端采集的图像信息传送到后端嵌入式设备,后
软件产业在IT产业中历来占有重要的地位,进入21世纪,这种地位继续得到巩固和凸现。随着软件产业技术的不断发展,对软硬件的要求也越来越高,为了不断提高软件开发效率,人们一
在知识经济飞速发展的时代,日益增强的市场竞争对产品的创新能力提出了更高的要求,也为产品的设计增加了难度。概念设计在设计阶段起着重要作用,它决定了产品的基本特征和主
近年来随着通信技术的进步以及移动设备的普及,移动网络成为当今世界发展最快、市场潜力最大、前景最诱人的业务之一。TCP流作为移动网络中承载绝大多数任务的传输协议,它的
当无线自组织网络作为下一代网络的接入网时,需要解决包括终端移动性、提供服务质量保证(QoS)、安全性以及计费在内的一系列的问题。其中,在无线自组织网络中提供服务质量保
近10年来,个人电脑在性能有了长足进步的同时,其价格也越来越便宜。因此在需要服务器的领域和在需要一定的运算性能的领域,以廉价的个人电脑而组建的机群正在以其不俗的性能
在现代信息社会里,计算机已经进入了社会的各个领域,互联网也日益普及,人们越来越多地依赖计算机获得各种信息,大量的处理工作也都转移到计算机上进行。研究如何将传统的纸张
计算机虚拟药物筛选是当今计算机辅助药物设计的主要环节。对待测药物分子的活性进行预分类,能够有效节约由于需要逐一分析上百万规模药物分子的形态结构所花费的较长筛选时间