排冗关联规则挖掘算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:maomao11111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,以便通过预测未来趋势及行为,做出前摄的、基于知识的决策.关联规则挖掘是数据挖掘领域的一个重要研究课题,目的在于从大量的数据库记录或交易中发现所有频繁出现的项目子集,并以关联规则形式给出一个项目子集如何影响其余子集.关联规则极富商业价值,可以用来支持商业决策和信息预测,例如,货架安排,销售提升,市场决策等.然而,用传统的关联规则挖掘方法所得到的规则数量通常很庞大,并且其中有大部份对于用户来说可能是无用的,或者是用户不感兴趣的,我们称之为冗余规则.这样的冗余又可能是多种多样的,要根据具体的用户需求来做出定义.该文所提出的冗余是针对这样的问题:由于频繁项目集本身存在一些包含与被包含关系,从而导致所产生的关联规则中必然存在一些在规则意义上是相同或是相似的规则.随着数据规模的增大或是最小支持度阈值的降低,这样的规则又是大量存在的,把这样大量的具有重复意义的规则提供给用户是不明智的,违背了数据挖掘的首要目的.由于这种冗余是规则集本身所固有的,因此排除这些冗余不需用户的干预就应完成.通过排除冗余,最终提供用户简洁的、紧凑的规则集,这样不但减少了在数据挖掘处理过程中的无关噪音,对于用户理解和提取信息也更有帮助.该文主要针对此类冗余问题做了一些研究工作.首先,考虑因为大量频繁项目集具有包含与被包含关系,因此考虑把这些项目集聚合起来,称为同组项目集.这样实际是对频繁项目集做了一次分组压缩,由这些同组项目集可以得到一些具有相同置信度的规则.然后,根据算法的需要提出了一种对数据进行处理的方法,我们称之为近似格.它是由上述同组项目集构造的一种类似格的结构,通过近似格组织结构可以较为方便和有效地对规则集中存在的冗余进行处理.最后,在模拟数据上实验验证了该文提出的算法的正确性和有效性.
其他文献
本文主要运用了反证法、usco和单位分解的方法,分别研究了锥扰动下向量优化问题弱有效解的上半连续性、锥意义下有效解的连续性以及含参数最优化问题解的通有唯一性.本文共分
基于特征匹配的入侵检测系统(Intrusion Detection System-IDS)由于检测效率高,误报率低的特性而被大多数商用IDS系统所采用.但是,这种系统存在的主要问题是人工生成的专家知
关于非线性泛函分析中不动点理论的研究已经引起了很多人的兴趣.与此同时也取得了丰硕的成果,其中包括Caristi不动点定理和与其相关的Ekeland变分原理.这两大定理为研究非线性
为确保松软岩层的巷道支护质量,降低维修率,通过对松软岩层的岩性分析,支护方案的比较选择,以及对锚网喷+型钢+锚索+注浆联合支护的应用实践,有效地控制了围岩的变形,确保支
本文讨论两类变时滞微分方程的全局吸引性。  第一章,首先介绍了两类变时滞微分方程的研究背景和现状,总结了这两类时滞微分方程全局吸引性的充分条件,其次介绍了本文的研究内
为了方便研究一般状态的跳过程,本文引进了转移概率密度函数,并证明了其存在性及有关性质,另一方面还利用转移概率密度函数来研究对偶过程,并证明了具有不变测度的跳过程其对
《中共中央国务院关于进一步加强和改进未成年人思想道德建设的若干意见》要求:“学校要完善班主任工作制度,高度重视班主任工作,选派思想素质好、业务水平高、奉献精神强的
中国人民银行南京分行孙工声行长在人民银行南京分行2011年工作会议上指出,今年江苏省将大力推进直接融资,继续开展“直接融资推进年”活动,实施债务融资工具余额倍增计划,争
本文首先在不具线性结构的H-空间和拓扑半格空间中进一步研究了KKM点集的稳定性.其次,运用了通用的方法,研究了锥意义下向量优化问题的有效解的通有稳定性.另外,仅利用于序关
不同的误差估计方法对应着不同的算法稳定的概念,现在讨论较多的误差估计方法是变一误差估计和排一误差估计.本文主要考虑了变一误差估计的情况,提出了几个变一误差估计下算