基于关联规则的数据挖掘方法研究

被引量 : 0次 | 上传用户:lym50691064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是人工智能和数据库技术等领域的研究热点,正在现实应用中发挥着强大的作用。关联规则挖掘是数据挖掘中一个最活跃、最重要的研究课题,主要目的是从给定的数据集中发现项目之间有趣的关联和相关关系。传统关联规则挖掘算法认为数据集中每个项目和交易记录具有相同的重要性,而实际上,用户往往对每个项目和记录的重要性加以区分,以便发现更感兴趣和更有价值的规则。加权关联规则挖掘解决了上述问题,并正受到越来越多的国内外研究者的重视。本文概述了数据挖掘和关联规则的相关知识,并系统地介绍了垂直、水平、混合加权关联规则挖掘,讨论和分析了常见加权关联规则挖掘算法模型。在对加权关联规则进行了深入研究的同时,提出了相关改进算法和应用。首先,说明了New_Aprior的缺陷,详细地分析了其改进算法—MWFI(Mining Weighted Frequent Itemsets)算法的不足,根据项目的不同重要性,提出了一种改进的加权关联规则挖掘算法。改进算法通过按属性的权值对事务进行分类,使挖掘每个类别内频繁项集的过程满足Apriori性质,可以利用Apriori算法或其它改进算法进行挖掘,提高了挖掘加权关联规则的效率,并且很容易扩展到混合加权关联规则挖掘中。另外,数据库中的项目分布往往是不均匀的,需要为项目设置不同的最小支持度。本文在考虑了记录的不同重要性的同时允许为不同项目设置不同的支持度,给出了一种多最小支持度加权关联规则挖掘算法。该算法挖掘频繁项集的过程克服了多最小支持度情况下不满足Apriori性质的缺陷,且不需多次重复扫描数据库,剔除了冗余项目并对相同项集累加计数,实验证明了算法的效率。最后,将加权关联规则应用到时态数据库挖掘中,提出了一种加权时态关联规则的挖掘方法。算法给出了有效的剪枝方法,克服了现有以项目生命周期为时间特征的关联规则算法中直接用频繁(k-1)-项集连接生成候选k-项集的不合理之处,并通过实例分析和实验对比验证了算法的有效性。挖掘出的规则既突出了项目的权重,又体现了现实数据中的时态语义,更具有实际应用价值。
其他文献
进入二十世纪的中国绘画开始了翻天覆地的巨大变化,在此期间中国绘画和中国画家都经历着转型的磨砺和痛苦,期间涌现了大批引领时代的伟大画家如:傅抱石、徐悲鸿、李可染、潘天
所得税核算是企业会计核算的重要内容,但在企业现行的所得税核算中,却存在着一些不可避免的问题,本文从所得税费用的确认,所得税的核算方法,所得税的核算内容和所得税信息的
本文回顾了《大五类人格维度和工作绩效:综述性再分析》中的大五类人格维度的起始和确认,阐述了用于效度预测、效度考察局限性的认识。特别指出,由于大五类人格维度并不是结
运用数据融合技术中模糊集合理论和遗传算法,建立适合地面战场复杂背景下标情报处理的融合算法模型--分级融合算法,并将该算法模型运用于侦察情报系统,对实现目标信息融合处
"十二五"期间NO x污染控制将成为燃煤电厂的主要工作。本文主要介绍了燃煤电厂NO x的生成类型以及在燃烧过程中和燃烧后NO x的脱除技术——低氮燃烧技术和烟气脱硝技术。并阐
目的分析下呼吸道感染产超广谱β-内酰胺酶(ESBLs)革兰阴性菌的产生及对11种抗菌药物耐药情况,并对临床针对性治疗产ESBLs耐药菌下呼吸道感染提出了建议.方法采用法国生物-梅
煤制气的组分不同于天然气,主要成分为CO、H2和CH4,液化分离装置的目的是要把CO、H2从煤制气中分离出来,用于生产甲醇,甲烷液化后分离生成LNG产品。不同于常规LNG的液化工艺,
在整个建筑工程项目的施工过程当中,建筑施工质量可以说是其中的一大核心内容,是保证建筑工程项目按量按时完工、降低工程费用以及合理调配原料不可或缺的因素,在建筑工程项
目的:探讨护理管理在医院感染管理中的重要性及预防医院感染的措施。方法:建立完善的外科护理管理制度;充分发挥护士长的管理作用;加强医院感染知识的培训;强化控制感染意识;
人才是企业的核心竞争力,是社会发展的动力,如何正确认识并运用现代人力资源管理理论已经成为当前社会的重要课题。本文对传统人事管理与现代人力资源管理的内涵进行了阐述,