基于粗糙集属性约简算法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:flyballball
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘引起了信息产业界的很大的关注,主要原因是存在着大量可以使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。粗糙集理论(Rough Set)就是在这样背景下不断发展起来的。粗糙集理论主要用于不精确、不确定数据挖掘与处理的新型数学理论。粗糙集合理论是由波兰数学家  Z.Pawlak在1982年提出的,是继概率论、模糊数学、证据理论之后又一种处理不确定性信息的有效数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,就能有效地分析和处理不精确、不完整和不一致的信息,并且从中发现隐含的知识,揭示潜在的规律。将粗糙集应用于数据挖掘领域,能提高对大型数据库中的不完整数据进行分析和学习的能力,具有广泛的应用前景和实用价值。  信息系统的属性约简算法是粗糙集理论的核心内容。寻找信息系统的最优约简或全部约简是NP问题,而基于属性重要性的启发式算法能够取得较好的约简。本文在广泛深入地查阅国内外文献的基础上,对经典的粗糙集的基本理论和粗糙集属性约简算法以及变精度粗糙集阈值选取算法进行了深入的理论研究和实验分析。分类正确率β和分类能力γ是可变精度粗糙集合模型的两个重要参数。本文论述了两者的相互关系及相互影响,在用户要求一定的分类质量γ的情况下,来得出β的精确的范围。本文首先简要介绍了经典粗糙集和变精度粗糙集的基本概念。介绍了Pawlak粗糙集模型以及决策表、可辨识矩阵和约简等基本概念,为后面章节中的属性约简算法打下了理论基础。其次,对经典粗糙集理论算法进行研究,且详细分析了相对可辨识矩阵和遗传算法,以属性重要度作为启发式信息,在此基础上提出了改进的算法。针对变精度粗糙集中β参数的确定缺乏可预见性的问题,提出了在确定近似分类质量γ下β取值范围的确定方法。最后本文通过实例来验证了本文提供方法的可行性和有效性。
其他文献
本文研究了基于XSBase255开发平台的嵌入式系统软件设计的关键技术,分析了开发平台的相关模块,搭建了宿主机开发环境,探讨了BootLoader技术,完成了Linux内核的定制,设计了相
据统计,在85%的信息系统中存在着与地理位置有关的信息,在这些信息中,既有空间信息,也有大量以传统数据库表达的非空间信息。随着计算机技术的出现和广泛应用,地图学家认识到
本文围绕构建LCD控制器系统级模型及其验证过程展开研究。首先,在介绍LCD控制器概念的基础上,分析了LCD控制器工作原理以及S3C2410 LCD控制器的工作机制,详细规划了LCD控制器
根据学生自身的情况进行差异化教育和多元化教育一直是教育领域中的理想模式,随着计算机软件的发展,交互式辅助教学系统就是通过这种方式在减轻教师负担的同时又提高了学生的
伴随着信息社会的不断进步和发展,信息安全已经成为了一个突出问题,通信安全作为信息安全的最重要部分之一,也受到了广泛的关注。传统的通信安全是通过传统密码的计算复杂性
随着计算机技术的飞速发展,国际医学信息标准化、电子化的推进,利用计算机进行医院病历现代化管理已是时代发展的必然趋势。在医院的现代化管理中,电子病历EMR(Electronic Me
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗糙集理论(Rough Sets)就是在这样背景下不断发展起来的一种用于不精确、不确定数据挖掘与处
随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模式,并基于这种模式设计并开发了i OS手写输
在Internet环境下广泛应用的网络安全技术,例如防火墙、入侵检测、网络监控、安全审计、虚拟专用网等,这些核心技术都是以包拦截包分类为基础的。数据包分类的正确性、准确性
随着Internet迅速的发展以及CNGI(中国下一代互联网示范工程)核心网的开通,IPv6将逐渐取代IPv4。实践也表明IPv6网络协议比IPv4不仅在网络IP地址枯竭问题的完美解决上,而且在