基于有向项集图的关联规则挖掘算法研究与应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhuanzhiboke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining,简称DM)也叫数据库中的知识发现(Knowledge Discovery in Databases,简称KDD),是指从大型的数据库中发现潜在的、新颖的、有价值的、可用的、能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要的研究领域,主要是发现数据库中属性之间的关联关系。本文在广泛查阅国内外文献的基础上,针对关联规则挖掘算法的若干问题进行了深入地研究和分析,论文取得的主要成果和创新点如下:针对目前关联规则挖掘研究缺乏理论基础的问题,将数学中的格论和形式概念分析等理论引入关联规则挖掘研究中,有效地描述了关联规则挖掘的问题空间,并提出了基于形式概念分析理论的关联规则挖掘的一系列定义和性质。针对传统的频繁项集挖掘方法中存在的生成大量候选集、多次遍历数据库计算项集支持度等问题,本文以图论为基础提出了基于有向项集图的频繁项集挖掘算法。算法将原始数据库中的信息保存在有向项集图中,将数据库中的频繁项集发现问题转化为有向项集图中的搜索问题并保证了问题解的完整性。本文针对数据库中的最大频繁项集挖掘问题进行了分析和研究,本文提出了基于有向项集图的最大频繁项集挖掘算法。算法利用深度优先的搜索方法,通过计算候选项集的频繁扩展集可以有效地约减问题的搜索空间,提高了算法的效率。本文针对数据库中的频繁闭项集挖掘问题进行了分析和研究,提出了基于有向项集图的频繁闭项集挖掘算法。算法利用深度优先的搜索方法,利用频繁闭种子集的性质对搜索空间进行剪枝,可以有效地生成所有的频繁闭项集。针对现实数据库中数据不断更新的问题,本文研究了在最小支持度不变的情况下新增数据集后如何发现更新后的数据集中的频繁项集问题。提出了基于有向项集图的完全频繁项集增量更新挖掘算法、最大频繁项集增量更新挖掘算法和频繁闭项集增量更新挖掘算法。本文提出和设计的算法针对大规模稠密数据集进行了测试,证明了算法的有效性,并对电力生产的相关数据进行了应用尝试。
其他文献
口蹄疫、猪瘟、高致病性猪蓝耳病是危害养猪业的主要传染病,2007年国家将这三个疫病纳入强制免疫病种,基层开展免疫时要分三次进行,劳动强度大、工作效率低,养殖者抵触情绪大
为了提高免疫质量,创新免疫方法,从2013年秋季动物防疫开始,景谷县动物疫病预防控制中心对全县农户饲养的生猪,采用"321"免疫技术实施强制免疫,到期2013年秋防止,共免疫生猪5
合理引导城市空间的有序发展,避免城市空间的无序蔓延是当前特大城市发展过程中需要面对的一项重大课题。在解读杭州城市空间扩展中出现的实际问题的基础上,借鉴国内外先进经
大学生智能手机的全面普及,为学习生活带来便利,也对课堂教学产生干扰。文章以大学生对手机的依赖为切入点,在普通教室内,通过无线网络和教学互动系统,构建基于学生智能手机
综述了国内外特高压电力变压器交流耐压和局部放电试验装置的现状;以武汉高压研究院特高压试验基地1 000 kV变压器的试验数据为参考,提出了特高压电力变压器的交流耐压和局部
建筑设计方案的评价 ,涉及的指标和考虑的因素很多。常用的评选方法综合性差、人为因素多 ,而且不能将各种定性和定量指标综合起来进行评价 ,往往导致评价结果失真。利用未确
基于详细的化学反应机理,在不同的化学计量混合分数下,研究了O2/N2和O2/CO2气氛中乙烯对冲扩散火焰的燃烧特性及火焰结构对碳黑生成的影响.结果表明:1)无论在O2/N2还是O2/CO2
为了研究自应力钢管轻骨料混凝土中长柱在轴心力作用下的力学性能及承载能力,对十几根不同长细比的柱子在轴压状态下进行了测试分析,并提出了自应力钢管轻骨料混凝土轴压中长柱
无线传感器网络作为物联网的重要组成部分,是由随机分布在感知区域内的成百上千的廉价的微型传感器节点构成的,通过无线通信的形式构成的一个多跳的、自组织的网络系统。它以
传统的外贸依存度是指一定时期内一国对外贸易总额与国民生产总值(GDP)的比例,是衡量一国经济对外依赖程度的重要指标。伴随着浙江省对外贸易额的连年快速增长,用传统计算方