基于粗糙集和概念格的关联规则挖掘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ttjjww1129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘研究如何从大量的数据中智能地自动地抽取出有价值的知识和信息,是当前人工智能研究中非常活跃的研究领域。关联规则(Association Rules)挖掘是数据挖掘领域重要的研究分支。概念格与粗糙集都是有效的数据分析方法。粗糙集理论利用等价关系对数据表进行分类,能有效地处理模糊性和不确定性问题的数学工具,为数据挖掘提供了新的思路和基础。而概念格是基于数据表,结合序理论,尤其是完备格理论,进行概念分层讨论。它们之间的关系引起了许多研究者的关注。文章首先介绍了经典的关联规则挖掘算法,分析了需要进一步深入研究的问题:挖掘过程中需要重复多次扫描数据库;挖掘过程中产生大量候选项集;产生的规则数量过多。接着主要以上面三个问题为突破口分别讨论了运用粗糙集、改进的概念格模型进行关联规则的提取,最后对二者的关系作进一步的探讨,并提出了粗糙概念格结构。主要内容及创新工作具体如下:1.Apriori算法优化:改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构一树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高。2.结合粗糙集理论,推导出“多属性不可分辨类”的性质。然后根据这个性质,提出了一种新的关联规则挖掘算法,该算法仅需扫描一次数据库,改善了现有的挖掘算法由于多次扫描数据库而导致时间效率低下问题。同时针对产生的规则数量过多问题,提出了基于规则约束和加权支持度的双变量约束关联规则挖掘,只对与约束条件有关的项目进行处理。3.研究了基于剪枝概念格的关联规则挖掘求解和表示。提出顺序剪枝和同步剪枝概念格的构造方法。实验表明基于剪枝概念格挖掘关联规则,减少了关联规则的挖掘空间,提高了关联规则挖掘的效率。4.对概念格与粗糙集之间的关系作进一步的探讨,并且证实粗糙集的一些概念包括等价类,上、下近似等都可以通过概念格来表示。提出了粗糙概念格RCL,采用粗糙集上、下近似集,描述概念格中内涵所拥有的外延,这种概念格结构体现了对象与特征间的确定与不确定两种关系。
其他文献
虚拟现实技术和互联网的发展,以及人们对旅游需求的不断增加,使得作为新兴模式的虚拟旅游得到了世界范围内的青睐。对虚拟旅游系统的开发研究已成为当今的热门话题。本课题研究
随着互联网络的发展和无线手持设备的广泛应用,移动IP越来越受到人们的关注,而移动IP中的安全性是制约其应用的瓶颈问题。因此对移动IP安全性问题的研究具有重要的理论和实际
随着网络的快速发展和计算机的普及,网络已成为社会运行和国家发展的必备基础设施,网络安全问题已经不容忽视。人们不断研发新的技术以保障网络安全,如:认证加密、防病毒、防
论文以中交天津航道局有限公司为背景,设计开发了燃油、物资管理信息系统。该系统加强了企业的科学管理,降低了燃油、物资的消耗,有效控制了成本支出,提高了企业经济效益。 论
数据压缩是把输入数据流(源流和原始数据)转变为另一种较小数据流(输出流或者压缩流)的过程。现有的大多数数据压缩算法是对某些特殊领域或者数据冗余度比较大的文件进行处理
作业车间调度问题广泛存在于工业领域。尤其在高效的生产业与制造业领域中,该问题备受关注。随着我国市场经济的飞速发展,工业规模越来越大,客户对于作业完成的效率要求也越来越
随着信息产业的大规模发展,软件开发已经由原来的小作坊式生产逐步转化为大规模专业化生产。软件产业离不开数据挖掘,而数据提取又是数据挖掘中重要的一环,在数据挖掘中应用
基于XML技术的Web服务体系是一种新兴的分布式计算模型,其核心的消息交换协议为SOAP(Simple Object Access Protocol,简单对象访问协议)。在分布式环境中,Web服务之间通过传
群体仿真是一项借助计算机对群体行为进行模拟研究的技术,它随着计算机图形学和虚拟现实的发展而逐渐发展起来,并在各个领域得到广泛的应用。特别是在城市规划、群体性突发事件
随着互联网技术的发展,计算机网络日益成为人们生活中必不可少的部分,而信息安全问题也日益突出,尤其是在国家关键业务领域和国防系统中,信息安全尤为重要。目前,我国的计算