基于加权的Top-K频繁闭包挖掘构建算法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:chenhy8208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容,在现实生活中有着广泛的应用。 而其中,以频繁项的挖掘在学界发展的较快,但先前的研究主要是基于min support阈值而且是以挖掘所有满足min support的频繁项为目标的。然而在现实中要提供合适的min support的域值却是困难的。而从挖掘结果上来讲,所有频繁项的数量要比闭包项的数量要庞大得多。另一方面,由于挖掘过程的不可控制性,挖掘的最后规律中不一定包含用户所希望了解的信息。针对上面的两个问题,本文作了如下研究: 1)引入Fop-K闭包挖掘的概念,所谓长度不少于min length的Fop-K闭包挖掘是指:按支持度排序,挖掘前K个闭包规则,且闭包规则的长度不少于min-length。 2)构建加权的基于Fp-Tree的Fop-K闭包挖掘算法(TWFPTA),该算法克服了上面提到的min support值域定制的困难以及挖掘过程的不可控制性。用K值的制定替代min support显得更直观,为数据中的信息设定权重,使最后挖掘的结果更偏向于用户想要得到的信息。 3)通过大数据量的实验,对TWFPTA进行结果分析,分别改变K值和min length的值,观察这两个参数对算法性能的影响。 4)用ε一equal support改良rwFPTA算法,以增强其挖掘长规则的能力。并对改良前后的结果进行对比,分析改良的效果。 通过大量实验证明,TWFPTA算法不但能够基本上解决min support定制问题以,同时也能够较好的得出用户想要的结果。因此有良好的应用前景。
其他文献
科学数据库经过二十多年的发展,积累了大量的科学数据资源。如何对这些数据资源进行有效的管理以方便数据共享、交换和整合,成为了一个亟待解决的问题。   科学数据库标准规
随着全球信息技术的发展,数据挖掘理论得到广泛研究,分类是其中应用最广的一种技术。随着可以利用的数据同益增长,大数据量的学习处理给研究者提出了新的难题。本文对增量式分类
网络流量分析技术包括对网络主机地址、网络互连、网络应用以及网络用户行为等多个关联实体的研究分析,对网络资源分配、网络服务质量提高都具有重要意义,其中以网络主机地址
本文分析了现有可变数据排版软件所面临的海量数据处理与多任务并发处理问题,参照印刷工作流JDF国际标准的核心思想,提出了基于XML的可变数据集群排版技术方案,用于解决可变数据
LFC语言是以上下文无关语言为数据类型的函数式语言,在形式规约获取系统SAQ中用作形式规约语言。LFC语言的检验分成两部分:即上下文无关文法检验和LFC函数检验。本文以LFC语言
ENUM(Telephone Number Mapping,电话号码映射)技术是近年来网络资源寻址定位方面研究的热点。在三大网络逐渐融合的趋势下,ENUM有着很乐观的前景。ENUM的深入研究和使用推广对
门户是一种基于web的应用系统,它可以集成来自Internet、Intranet和应用系统的各种信息,使员工、客户和合作伙伴能够从单一的渠道访问其所需的个性化信息。门户通过及时地向用
随着信息技术和通信技术的发展,计算机安全占据越来越重要的地位,而操作系统安全是计算机安全的必要条件。鉴于操作系统面对着来自内外部环境的各种安全攻击和威胁以及操作系统
电子检务是指检察机关以信息网络技术为支撑开展的检务活动,是我国电子政务的一个重要组成部分。电子检务网络是一个基于TCP/IP协议通过检察专线网连结全国3500多个检察院局域
学位
动画技术在万维网上的应用范围很广。近年来,研究网上动画生成技术已经逐渐在国内成为热门,而国外,各种用来实现网上动画的制作工具、编程语言、编程接口已逐步被开发出来。  
学位