基于数组的关联规则挖掘算法的改进研究

来源 :太原理工大学 | 被引量 : 4次 | 上传用户:yatou5004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术从一开始就是面向应用的,使用数据挖掘工具进行数据分析可以方便地获得重要的数据模式并应用于决策。关联规则挖掘作为数据挖掘的重要技术广泛应用于各大领域,特别是商业领域。随着数据集的大小和复杂度的增长,研究高效的关联规则挖掘算法,并增强其对不同数据集的适应性显得十分重要。关联规则挖掘是发现存在于数据集中的项目或属性间的关联关系。关联规则挖掘算法分两步实现,首先挖掘得到频繁项目集集合,然后根据频繁项目集集合得到强关联规则。Apriori算法是经典的生成频繁项目集的关联规则挖掘算法。随后,在基于Apriori算法的基础上提出了很多变体,不同的变体侧重于不同的改进方向。基于数组的关联规则挖掘算法,就是利用数组的结构特性提高了算法的挖掘效率。针对关联规则挖掘中,模式计数代价太高、I/O效率低下等问题,本文在详细分析Apriori算法的基础上,研究了基于数组的关联规则挖掘算法,针对算法中存在的问题:数组中存在大量的无价值元素、大量候选项集的产生,提出一种新的改进算法,该算法通过数据约束,仅生成用户感兴趣的频繁模式,有效地减少了模式计数代价,提高了挖掘质量,同时通过对算法采用数组压缩、改进连接步等方法进行改进,使得在每次数组扫描过程中都能生成不同长度的频繁模式集,能够在较少的数组扫描次数中挖掘出全部的频繁模式集,这对于提高关联规则挖掘的效率和质量,具有重要的理论和实际意义。在上述研究成果的基础上,以DELPHI7.0和SQL SERVER2000作为开发工具,设计与实现了基于数组的关联规则挖掘算法和改进算法的挖掘系统,系统使用的数据集为IBM数据生成器生成的5000条试验数据。论文中给出了该系统的流程图,详细介绍了系统的运行过程,系统运行结果表明,改进后的算法是可行的、有价值的。最后,分析了有待继续深入研究的问题和进一步拓展的方向。
其他文献
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human MachineInteraction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。情感计算的研究对于
客户关系管理(Customer Relationship Management, CRM)对于企业掌握客户需求是十分重要的,它能够帮助企业掌握客户的需求内容及需求趋势,加强与客户的合作关系,有效地挖掘和
随着互联网的迅速发展,网络攻击事件越来越多,网络安全评估已经成为当今网络安全领域研究的热点和难点之一。网络安全评估可以在网络遭受攻击前对网络的安全性状况进行预测,并给
语料库语言学在1990年代得到迅速的发展。语料库语言学的要旨是让计算机从大规模真实文本语料中直接学习并自动处理语言信息。然而,原始语料的利用价值有限,如果在原始语料中
随着经济的发展和社会的不断进步,犯罪分子的作案手段,以及犯罪人群也在不断的发生变化,为了更好的打击和预防犯罪,维护国家和人民生命财产的安全。同时,提高公安工作的规范化管理
Web服务作为一种流行的资源整合平台,可跨平台集成网络上的各种资源和服务。W3C将Web服务定义为“URI上的应用软件”。Web服务组合通过一定的逻辑关系将多个服务按照特定的功
随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。而多源数据又是构建系统的重要部分,尤其是各类关系数据库,其异构性和管理的局部性以及地理位置的差异性导致企业
目前,生物认证是最重要、最可靠的以计算机为辅助的个人身份认证方法之一。它以人体唯一的、可靠的和稳定的生理学特征作为鉴别个人身份的依据,采用计算机强大的计算能力和网
计算机视觉检测技术是精密测试技术领域内最具有发展潜力的新技术,它综合运用了电子学、光电探测、图象处理和计算机技术.将计算机视觉引入到工业检测中,实现对产品质量的快速
布料仿真是一种用计算机来模拟布料动态形态的技术,具有广阔的应用前景。弹簧—质点模型简单易用,计算效率高,应用较广,但反映布料物理特性较困难,若要在对材料特性要求较高