挖掘Top-K频繁模式的算法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:kingknife2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是研究从大量数据中发现有用知识的理论与方法,它是目前国际上数据库和信息决策领域的最前沿研究方向之一.关联规则是数据挖掘中一个较早的、有意义的研究课题之一.在关联规则的挖掘过程中,频繁模式挖掘是整个挖掘过程的核心,如何有效的挖掘频繁模式一直以来就是研究人员关注的热点.然而在实际应用中,由于挖掘出来的频繁模式数量巨大,从而阻碍了频繁模式的应用.因此,如何对频繁模式进行压缩成为了研究的一个重要方向.本文首先介绍了关联规则和频繁模式的相关概念及基本挖掘技术,随后详细介绍了频繁模式压缩技术,并简要分析与比较了几种有效的频繁模式压缩方法.最后,本文提出了三个基于Top-K思想的频繁模式压缩算法.(1)提出了一个基于Apriori的Top-K频繁模式挖掘算法ATFP该算法沿用了Apriori算法的基本思想,但是在挖掘过程中使用了边界支持度来取代最小支持度,从而实现了对候选项集进行筛选.然而由于该算法依然采用了迭代思想,因此与其它Top-K频繁模式挖掘算法相比效率并不高.(2)提出了一个基于混合搜索策略的改进算法MSTFP.该算法是ATFP算法与Top-K FP-growth算法的结合.算法使用广度优先搜索策略来进行初始项目的挖掘,随后使用深度优先策略进一步对长项集进行挖掘.(3)最后提出了一个基于水平格式的Top-K频繁闭模式挖掘算法TFCP.该算法主要采用类似垂直挖掘的思想来进行频繁闭模式的挖掘,同时使用TFP算法中的限制条件对结果集进行了优化.本文对所提出的算法进行了广泛的性能测试.在UCI机器学习库中的19个数据集以及IBM数据生成器上生成的2个数据集上的实验结果表明,与Top-K FP-growth算法相比,本文所提出的ATFP算法的挖掘效率要略逊一筹.但是改进算法MSTFP在与Top-K FP-growth以及ExMiner算法的比较中,在挖掘速度上的优势非常明显.本文还将TFCP算法与TFP以及CLOSET+算法进行了比较分析,实验结果表明本文所提出的TFCP算法在进行长模式的挖掘时更有效率.这些研究成果为频繁模式在实际问题中的应用提供了一种有效的途径.
其他文献
目的采用荟萃分析方法研究在急性呼吸衰竭(ARF)患者中使用头罩和面罩无创通气的疗效。方法以“helmet,face mask,facial mask”和“mechanical ventilation或noninvasive ven
河北省秦皇岛市青年企业家、华飞实业有限公司董事长张菲非,他所创办的企业不仅在本地区赢得好评,而且也越来越被外省市了解他的人们所称赞。张菲菲1962年12月出生于一个军人
Top-n推荐技术是近年来信息服务领域的一个研究重点和热点.针对云环境下的top-n推荐算法进行了深入研究,提出了适合top-n推荐的多层分布式存储架构MDSA(Multilayer Distribut
10年前违规卖出了自家农村私宅,如今房子拆迁却又反悔,这样的诉求能够得到法律支持吗?10年前,江苏省南通市通州区的农村夫妇张志勇、蒋云将家里的一处私宅卖给了城里的远房亲
乙二胺四乙酸(EDTA)作为一种人工合成的重要络合剂,被广泛应用于众多行业。本文介绍了EDTA在工业中以及在生物络合烟气脱硝中的应用,概括了EDTA对环境的危害,总结了EDTA生物
睡眠是大脑皮原神经细胞疲劳后抑制扩散的一个被动过程,是避免大脑过度疲劳导致衰竭的一种保护性反应,睡眠障碍可引起情绪不稳、激动、烦躁不安,造成所谓"焦虑"状态,严重影响老
随着社会的发展,我国的教育事业的发展也突飞猛进。当前,小学数学的教学对象主要集中于数和形两个方面,它们涵盖了整个小学数学教材的两条教学主线,更是小学数学学术思想的核
前不久,金寨县涉嫌犯开设赌场罪的犯罪嫌疑人余某被县公安局列为网上在逃人员。后来,余某来到小王家中躲藏。小王知晓情况后不但没有报警,反而免费为余某提供吃住和通讯工具
2004年5月,教育部正式批准我校升格并更名为浙江传媒学院,这标志着我校的发展进入了一个新的历史阶段。为进一步提高我校的教育教学质量和学术水平,尽快适应本科层次人才培养
日前,2009年度上海市科学技术奖励大会在上海展览中心隆重举行。由同济大学、上海华太数控技术有限公司合作的“基于CC-Li1nk的印刷机系列控制系统开发、应用及产业化”项目获