数据流模式挖掘算法及应用研究

被引量 : 16次 | 上传用户:saintdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行业对数据越来越重视和信息技术的快速发展,产生的数据越来越全面,同时数据量也在快速的增长;并且各行业又要求能及时对已产生的数据进行挖掘和分析,这使得数据流挖掘技术愈发重要。由于数据流具有海量性、实时性和动态变化性的特点,这就要求数据流上的挖掘算法有较高的时空效率。尽管数据流上数据挖掘技术取得了一定的进展,但是挖掘算法的时空效率仍然是当前数据挖掘领域中的研究焦点之一。本文主要研究了数据流模式挖掘算法,包括传统数据集类型中的频繁模式挖掘以及大数据集下的频繁模式挖掘、不确定数据流中的频繁模式挖掘、和高效用模式挖掘。本文首先对已有的频繁模式和高效用模式挖掘算法进行了回顾,详细的介绍了算法Apriori和FP-Growth等;然后在对典型的挖掘算法和最新研究成果进行分析研究的基础上,深入研究了传统数据中的频繁模式挖掘、不确定数据上的频繁模式挖掘和具有效用值的数据中的高效用模式挖掘算法。本文取得了如下的创新性研究成果:(1)在传统数据的频繁模式挖掘算法研究中,提出新的尾节点数据结构和一种最多两次MapReduce的并行挖掘算法。针对数据流中的频繁模式挖掘问题,采用尾节点和尾节点表来提高窗口内数据更新的时间效率和维护的空间效率;并通过提高窗口内频繁模式挖掘算法的时间效率,进而提高数据流中模式挖掘的整体时间效率。针对大数据下的数据流频繁模式挖掘问题,首先通过一次MapReduce找到局部频繁模式做为候选项集,然后通过给出的剪枝策略对候选项集进行剪枝,最后进行第二次MapReduce对候选项集中剩余项集进行支持数统计;在多数情况下,该算法不需要第二次MapReduce就可以有效的挖掘到所有的频繁模式。(2)在不确定事务数据的频繁模式挖掘算法研究中,提出具有更高压缩率的树结构来改进不确定数据集及数据流上的频繁模式挖掘算法。首先利用数组来存储事务项集的概率,然后将事务概率在数组中的索引和事务项集映射到一棵树上,从而可以有效的降低维护不确定数据集的树节点个数。在此基础上,结合滑动窗口技术,同时给出两种新的树结构分别来维护窗口中数据和挖掘过程中的子数据集,保证在挖掘的过程中使窗口中事务项集的信息不会从树上丢失;从而使频繁模式挖掘算法的时空效率得到较大的提升。另外,本文还提出一种新的具有权重的频繁模式挖掘模型和算法;该模型主要是将项的权重值引入到频繁模式的挖掘过程中,将权重值大的模式考虑到挖掘结果中。(3)在高效用模式挖掘算法研究中,提出避免使用高估效用值的不产生候选项集的挖掘算法。首先本文提出一个新的树结构来维护事务项集及效用值信息,通过该树结构可以得到项集的准确效用值,而不是高估效用值,从而保证不通过候选项集就可以挖掘到所有的高效用模式,因此可以提高算法的时空效率。在此基础上,结合滑动窗口技术,同时给出一个新的树结构维护窗口中数据,可以使算法通过一遍数据集扫描,在不产生候选项集的前提下就可从数据流中挖掘高效用模式。相对KDD会议和TKDE期刊上最新发表论文UP-Growth算法,新提出的算法的时间效率提高1到2个数量级。
其他文献
在我国,小微企业是市场经济中最具生机和活力的群体之一,对国民经济发展具有举足轻重的作用,其不管是在产品技术的创新、产业结构的调整、区域经济的崛起、和谐社会的建立等
在页岩气储层柱塞状岩心孔隙度测量中发现一些特有的现象:用核磁共振法、液体饱和法和波义尔定律双室法三种方法得到的核磁孔隙度、盐水孔隙度和氦气孔隙度不能很好的对应,三
整理者言:有关资料显示,1937年10月组建新四军时,同时组建了新四军的报务通信联络系统。只是由于工作的特殊性,外界很难了解到这方面的情况,这样就给人留下了些许神秘的色彩。
上肢功能的康复训练与功能恢复是脑卒中偏瘫患者康复过程中最为困难的一项.现代康复理论与实践证明,在脑卒中偏瘫康复治疗过程中,除了手术治疗和药物治疗外,科学的康复训练对
为有效降低煤矸石对矿区环境的影响,通过研究丘陵沟壑区煤矸石的填埋技术及应用,并对其效益进行了分析。结果表明,利用地形条件填埋煤矸石,是矿山废弃物综合治理的有效途径,
温端政先生的《汉语语汇学》一书致力于汉语语汇的系统研究,从“语词分立”这一主张中重建汉语语汇的框架。他将汉语语汇研究的范围限定在成语、谚语、惯用语和歇后语上,并且
随着社会保险覆盖面的扩大,经办量的增加和社会公众对社会保险需求的日益增长,社会保险在公共服务中出现的机构形象混乱、操作随意、信息孤立、服务供需失衡等问题越来越突出
目的研究慢性肥厚性鼻炎采用下鼻甲粘膜下切除术与下鼻甲部分切除术的临床效果。方法将72例慢性肥厚性鼻炎患者分为治疗组(下鼻甲粘膜下切除术)和对照组(下鼻甲部分切除术),
质量是企业的生命,是企业发展的根本保证。随着我国改革开放脚步的不断前行,市场经济的不断发展,特别是加入WTO以后,建筑业在国民经济中发挥着越来越重要的作用,正慢慢成为我
利用以热量法为基础的电、热成本费用分摊方法,对典型热电联产电厂的发电、供热效益进行了测算分析。结果表明,在全厂总体盈利的情况下,发电盈利但供热亏损,发电、供热效益不