关联规则扩展模型的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:haiyunnihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据库中的知识发现(Knowledge Discovery in Databases,KDD)已成为涉及人工智能和数据库等学科的一门非常活跃的研究领域。而关联规则是KDD要发现的一类重要的模式,它的挖掘问题是KDD的一个重要研究方向,本文着重对关联规则的扩展模型和挖掘算法进行了研究。 传统关联规则挖掘假定数据库中每个项目具有相同的重要性,然而在很多实际应用中,事实并非如此:用户可能对某些特定的项目兴趣更大,而且同一项目在不同时段的重要性也可能是不同的。考虑到这一点,目前文献中有两类关联规则的扩展模型:加权关联规则和多支持度关联规则。加权关联规则的思想是为每个项目追加一个表示其重要性的权值,传统的关于支持的定义被扩展为加权支持,这样就可以发现较多用户感兴趣的关于重要项目的关联。多支持度关联规则放弃了传统模型中的单一最小支持阈值,取而代之的是为每个项目设置一个最小支持阈值,对比较重要的项目可以把阈值设的小一些,这样同样可以达到加权关联规则模型的效果。 本文的主要贡献提出并研究了混合关联规则模型。 负关联规则作为传统关联规则的对立面,也包含了有用的信息。然而,文献中对负关联规则的研究较少且并没有完全形式化。为此,通过在项目集中引入负项目,本文提出了一种关联规则的扩展模型:混合关联规则。它是传统关联规则和负规则的超集。 本文提出并详细讨论了混合关联规则的三种挖掘算法:直接的算法,基于hash树的算法,和基于树的算法。第一种算法是从混合规则的定义出发采用直接的方法生成大项集,算法的复杂度较大,效率不高;第二种算法是对Apriori算法稍加修改得到的,也不够令人满意;为进一步提高执行效率,我们设计了基于一种树结构的算法。此外,我们还给出了一个冗余负关联规则的剪枝算法。所有算法均用C实现。为验证算法的有效性,我们根据理论分布,使用伪随机函数生成了若干数据集,进行了关联规则挖掘实验,并对实验结果进行了分析。 然而,混合关联规则模型也有一些难题,如传统的“规则过多”问题这里表现得尤为突出。为此,本文探讨了在混合关联规则模型中引入权值或多支持度的将来研究方向。
其他文献
随着企业信息化在实现国民经济和社会信息化中的基础地位的提高,以及对实时系统研究的不断深入,实时系统的应用也越来越广泛。将实时系统引入到控制网络通信中来改变了原有控制
随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了
该文提出了一个大规模搜索引擎的改进框架,充分利用了超文本的结构,这个结构设计用来有效的爬行和索引网页.产生比现行系统更加满意的搜索结果.这个结构有一个至少拥有2400万
异构多核处理器中所集成的处理核心类型的多样性,促成了其对特殊应用(如信号处理、图像处理等)的良好支持,并使得在此基础上的实时调度问题成为了多核实时领域的主流研究方向
现代网络技术特别是INTERNET的飞速发展,深刻地影响和改变着人们的工作、生活和学习方式,各种基于互联网的应用服务正不断地应运而生。现代远程教育(Modern Distance Education
该文所做的主要工作有;1该文提出一种新型的前向安全算法-DGUH算法.DGUH算法的主要特点是:利用HASH函数的单向性,在每个时期开始阶段,每个成员利用前一时期的秘密参数作为自
随着互联网技术的发展,SaaS(Software as a Service)作为一种创新的软件应用模式已经兴起。由于其应用领域和实现方式的不同,SaaS应用支持的用户使用行为通常具有一定的间歇
工作流管理技术属前沿研究领域,在计算机网络技术、企业管理水平的不断发展中,工作流管理系统(WfMS)已成为支持人们协同工作、实现业务流程自动执行、构建OA应用的基础平台。在
该文主要探讨的即是关于大尺度室外地形的实时渲染问题,其主要内容包括:(1)介绍了目前在处理和显示三维地形中常用的典型数据结构和相应的算法;(2)分析研究了典型算法在现代3D硬件
信息时代最明显的特征之一就是各类数据的爆炸式增长,如何从海量数据中发现有价值的知识,成为人们日益关注的问题。为解决这一问题,数据挖掘技术应运而生。聚类分析作为数据挖掘