基于粗糙集的粒度计算在数据挖掘中的应用研究

来源 :广东工业大学 | 被引量 : 10次 | 上传用户:Tiffany100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的广泛应用,数据库中存储的数据量急剧增大。对如此庞大的数据需要进行较高层次的处理,从中找出规律和模式,以帮助人们更好地利用这些数据进行决策和研究,因而提出了知识发现和数据挖掘的概念。知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是从数据库的大量数据中提取隐含的、未知的并有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,也是知识发现技术难点,是目前相当活跃的研究领域。粗糙集理论是波兰数学家Pawlak提出的一种分析模糊和不确定知识的强有力的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,这个特点使得粗糙集理论非常适用于数据挖掘。人们在思考和解决问题时,往往根据需要,或者是先整体后部分;或者是先部分后整体;或者是交替使用以上两种方法。人们不仅能在不同粒度的世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒度的世界,往返自如,毫无困难。因此将粒度的概念引入到数据挖掘中去有着非常重要的意义。本文主要研究将粒度思想应用于数据挖掘过程中,从粒度的概念和角度进行属性约简和规则提取,用于从大型数据库中挖掘出有用和用户感兴趣的知识,解决信息系统数据多而知识少的问题。本文综述了数据挖掘和粗糙集的相关理论及国内外研究现状,探讨了粒度计算的研究领域和数据挖掘技术热点以及两者未来发展趋势。深入研究了粗糙集理论的约简算法,约简算法包括属性约简和属性值约简。在目前属性约简算法的基础上提出了一种基于条件信息熵的属性约简改进算法,同时将粒度思想应用到规则提取中,在前人所作研究的基础上提出了基于搜索粒度,自顶向下,建立多层次粒度模型的规则提取算法。针对传统的基于粗糙集理论的数据挖掘模型存在不实用的特点,提出了一种改进的数据挖掘模型。该模型包括数据预处理、属性约简和规则提取三个模块,并利用算例验证该模型的可行性。
其他文献
随着计算机技术、微电子技术、通信技术等科学技术的发展,特别是互联网(Internet)以其海量的信息资源、方便快捷高效的信息交流方式等技术的出现与发展,网络已成为人们学习生
随着计算机应用领域的日益广泛以及信息处理技术水平的不断提高,自然语言信息处理技术一直倍受关注,如何提高计算机对自然语言的理解对计算机技术的发展有着非常重要的意义。
随着信息技术的快速发展,数据库技术被广泛的应用于企业、政府和科研等方面。如何从这些数据库中存储的大量数据中获取用于支持决策的有用知识,成为研究人员需要解决的问题。
随着计算机技术和网络的发展和普及,信息化已经影响到社会的各行各业,正在蓬勃发展的电子政务就是其发展的结果。当前电子政务发展的很迅猛,从上到下,各级政府都在建立自己的电子
蚁群算法是MarcoDorigo等学者在真实蚂蚁觅食行为的启发下提出的一种具有高度创新性的元启发式搜索算法。它是继模拟退火算法、遗传算法、禁忌搜索算法、人工神经网络算法等
高职院校建设学生行为文化,需要清楚当地产业发展现状,强调基于地方产业文化建设学生行为文化的必然性.通过养成教育促成良好行为习惯、校企合作感受企业行为文化、个性校园
现代社会中,随着信息技术的飞速发展,图像作为一种重要的信息表达载体,越来越受到人们的关注。在诸多的实际应用领域中,对图像清晰度的要求往往较高。然而,图像在采集、存储和传输
高光谱遥感借助成像光谱技术能够获取丰富的地物反射的光谱信息,这为像元级地物类型甚至亚像元级地物识别提供了可能。但是丰富的光谱信息同时也意味着高光谱数据量大、维数高
国内外不同服役期限的大跨径PC连续体系桥梁在使用过程中凸显出众多病害,一些桥梁出现了严重问题,乃至个别桥梁不能正常使用,造成部分技术人员和建设管理人员对预应力混凝土连续
多核架构是处理器发展史上的重要里程碑。它的出现满足人们对更高性能的需求,特别是在油气勘探、气象预报、虚拟现实、人工智能等高度依赖于计算能力的场合,多核架构将显著地