基于粗集理论的数据挖掘的数据预处理研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ASHLEY920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息。与此同时,这些数据还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数据库中往往存在冗余数据(Redundant data)、缺失数据(Missing data)、不确定的数据(Uncertain data)和不一致的数据(Inconsistent data)等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中发现知识之前必须对数据进行预处理。本论文着重研究数据挖掘中的数据的预处理,尤其是数据离散和属性约简。 本论文首先介绍了数据挖掘的历史、现状和可能的发展方向,并回顾了它的主要方法和技术。然后,论文对粗糙集理论和数据预处理从理论和技术上做了一些介绍,并对数据挖掘中的各环节运用粗糙集理论的方法进行了分析;随后论文重点对作者在数据离散和属性约简两个方面做的研究工作进行了阐述。论文先提出了连续性数据离散定义的一般性数学描述,然后在此基础上提出了一个属性类别差异离散(Attribute-Class Difference Discretization,ACDD)算法分割点的计算公式。因为目前的离散算法很少既是监督的又是动态的,所以本文研究并提出了这种既是监督的,又是动态的离散算法。它的优点是既考虑了类标示,又考虑了各个属性间内在的联系。文章中提出的约简算法则是一种改进的基于差别矩阵的算法,它的目的不在于寻找所有的约简,而是找到一个比较好的约简。
其他文献
防火墙主动防御技术体系作为网络安全领域的一个重要分支,越来越受到业界关注。目前,基于给予各种操作系统的防火墙大多采用被动防御技术,如特征匹配、手动更新、流量控制、
近年来,随着移动设备得到了迅速普及,无线网络技术的飞速发展,有越来越多的人通过无线设备连接到Internet上,希望能够随时随地的对网络进行访问,并且在移动时仍然能够保持通信。20
软交换已被业界公认为是下一代网络的交换技术。其分布式媒体处理和集中式交换控制相结合的体系结构充分体现了计算机网络技术和通信网技术的有机结合,为电信网向以IP为核心
用例驱动方法是当前国际流行的软件开发过程之一,软件开发所有阶段的活动都是以用例为核心。Unified Process和统一建模语言都是基于用例驱动的软件工程流程。我们经常会看到
在Internet-web日益普及的今天,越来越多的企业应用都采用Web技术来开发,Web Service是一种基于标准的Web协议的可编程组件。Web服务提供者开放一系列API,开发人员通过调用这
随着计算机在铝电解生产行业中应用的推广,各厂在生产过程中均采用了计算机参与的监控系统实现对电解槽的自动化控制。各种槽况数据被监控系统自动采集,在铝电解生产行业积累
目标检测不仅是目标识别的经典问题,同时还是许多其它视觉任务的基础。对目标模型和检测算法的研究体现并且推动了目标识别领域的整体发展水平。在检测对象中,非刚性目标(如动物
XML以其强大的数据表达能力,事实上已经成为Internet上数据表示和交换的标准。由于关系数据库仍然是大多数商用数据的存储手段,因此将关系数据发布成XML成为数据库领域的重要研
随着用户对软件产品质量要求越来越高,对软件开发商来说,软件产品质量不再仅是一个公司成为市场优胜者的有利因素,更是公司成功参与竞争的必要条件。开发者把提高软件产品质量放
多目标优化问题的研究一直是一个非常热门的研究领域,其成果被广泛应用于工程,经济,管理,军事等其他领域,对人类的发展起到了重要的推动作用,带来了巨大的经济效益和社会效益。传统