基于闭模式的关联规则产生算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:mysnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是数据库和人工智能领域研究的热点课题,被用来发现大量数据中隐含的有用的知识;而用于描述多个数据项之间的相关性的关联规则挖掘则是数据挖掘应用中的一个重要组成部分,关联规则揭示的信息广泛应用在市场分析和商业决策之中。与使用频繁模式相比较,使用频繁闭模式来产生关联规则具有很大的优势,目前已经出现了很多挖掘闭模式的算法,然而这些算法仍然存在着一些问题:产生的关联规则数量较多,不方便用户理解和使用;挖掘过程中需要保存数据副本或中间结果,内存开销较大;算法中存在着大量冗余的、无效的操作,执行效率较低等。本文针对上述问题,对基于频繁闭模式的关联规则挖掘算法进行了深入的研究。首先简要说明关联规则挖掘的相关概念和分类;其次介绍FCA(FormalConcept Analysis)在关联规则挖掘中的应用,分析了使用Iceberg概念格从频繁闭模式产生有限关联规则的方法,利用此类方法得到的这些有限关联规则可以准确地描述出项目集之间的关联关系,并且数量很少;然后在CLOSET算法的基础上,提出了一种新的高效挖掘频繁闭模式的算法FCIM。该算法使用频繁模式树来保存需要挖掘的数据集,采用“分而治之”的策略、按照深度优先的顺序进行挖掘,在挖掘过程中使用相等子节点保存已挖掘到的频繁闭模式的信息,保证抽取到的每一个局部频繁闭模式一定都是全局闭合的,可以直接输出到外部文件,减少了大量的冗余操作和内存空间占用,使算法获得较好的可伸缩性;同时提出了二种优化操作,利用当前获取的信息进行分析预测,尽可能早地抽取出频繁闭模式,从而使FCIM算法获得很高的运行效率;最后给出算法的伪代码描述和运行示例。试验结果表明,FCIM算法能够得到正确的结果;并且与CLOSET+算法相比,FCIM算法具有更高的挖掘效率和良好的可伸缩性,证明该算法是切实有效的。
其他文献
随着信息技术、Internet技术以及计算机产业的迅速发展,嵌入式系统已经成为当前IT产业最瞩目的焦点之一。基于嵌入式的网络视频监控系统是当前嵌入式应用开发领域的一个热门课
随着网格技术的不断发展,网格中的信息资源也随之多样化,其类型由传统的结构化资源延伸到半结构化和非结构化资源。用户难以统一和透明地获取这些异构资源中的有用数据,因此
无线传感器网络[1-4](Wireless Sensor Network:WSN)由一组微小型功能齐全的MEMS装置构成,这些微型装置包括传感器、无线发射器和接收器、电源,它们分布在一个地理区域中对该区
Web应用已经在各行各业扮演了越来越重要的角色,受到了来自大量匿名用户的访问,这其中也包括恶意用户。这种广泛的应用导致 web应用程序容易受到各种攻击,如 SQL注入(C组)和跨站点
数据是广泛分布于组织,公司,政府部门等单位的实际信息,并且知识是来源于信息的抽象概念。但数据被局限在应用程序,数据库,企业内部网,外联网,(可扩展标示语言)XML,甚至在平面文件或E
无线传感网络WSNs(wireless sensor networks)是当前国际上倍受关注的、由多学科高度交叉的前沿研究领域。围绕实现网络低功耗运行,针对适合网络特点的网络协议研究是极为重
随着多媒体移动通信等新业务的发展,频谱资源日益紧张。人们持续增长的需求与有限频谱资源之间的矛盾成为研究高频谱利用率技术的动力和挑战。众多新技术中,基于多天线的多输
文本蕴涵是文本理解与语义推理的基础,欲以解决自然语言语义表达的多样性问题,近年来在计算机语言领域受到了极大关注。文本矛盾关系是蕴涵关系的一种否定,是指两个文本不能同时
P2P对等网络是一种与传统C/S模式不同的新型网络。P2P网络从结构上一般分为非结构化P2P和结构化P2P。非结构化P2P资源的查找和定位通过扩散来实现,搜索数据几乎是随机搜索,容易
运动目标检测根据对视频信息采集时摄像机运动与否可分为静态场景中的检测和动态场景中的检测,它是机器视觉的重要组成内容和关键技术之一。随着机器视觉的发展和应用,运动目标