粗糙集理论在知识发现数据预处理中的研究与应用

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:trjycp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在对实际应用领域进行知识发现的过程中,由于数据采集能力有限和数据存储介质损坏等未知情况,所获取用于挖掘的数据系统往往是不完备的,即存在缺失数据。因为这种数据的不完备性给用来进行挖掘的数据模型引入了噪声和不确定性,从而使得挖掘出的信息会出现矛盾和混乱的问题,这会严重影响知识发现中的数据挖掘过程和结果。粗糙集理论是由波兰科学家Z.Pawlak创立的一种处理数据模糊性和不确定性的数学理论工具,它在处理信息数据的过程中无需任何先验的领域专家知识,具有一定的客观性和通用性。因此,本文以粗糙集理论作为理论工具,研究它在数据预处理过程中解决数据缺失值问题中的应用,并最终提出了一个粗糙集理论和关联规则中频繁项集的联合处理模型。首先,论文介绍了目前不完备信息系统中填补缺失值的主要方法,并分析了各自的优缺点,尤其是在国内较受关注的基于粗糙集理论的ROUSTIDA算法和国外的ClosestFit算法。在此基础上提出了一种融合了粗糙集量化容差和属性约简知识的不完备信息系统处理算法RSF,该算法在描述缺失对象和备选填补对象之间的相似精度和算法运算复杂度上有明显改善。通过实验验证,RSF方法与ROUSTIDA算法相比具有更高的填补精度,比ClosestFit算法拥有更低的运算复杂度。其次,基于以往处理不完备信息系统算法中都忽略的备选填补对象在整个信息系统中的重要性问题。本文提出了一种用关联规则中频繁项集知识来对数据缺失值进行填补的方法,该方法简便且能提高缺失值的填补精度。由于该方法中无法完成所有缺失值填补的缺点,文中最后提出将其与RSF算法联合的处理模型FI-RSF,在该模型中先利用频繁项集填补法,对余下的未能处理的缺失值再使用RSF算法继续填补。最后,通过在UCI机器学习数据库选取数据集进行实验,验证了FI-RSF方法较RSF方法在缺失值预测精度上有所提高,且随着产生频繁项集的预设支持度降低,预测精度会提高。
其他文献
流媒体技术广泛用于互联网多媒体新闻发布、在线直播、网络广告、电子商务、视频点播、远程教育、远程医疗、网络电台、实时视频会议等互联网的信息服务的方方面面。Internet
随着信息技术的发展和市场竞争的加剧,我国各型企业纷纷组建管理信息系统。本文对房屋交易企业建立管理信息系统进行了研究和探讨,其目的是实现房屋信息的计算机管理,信息资
随着信息技术的高速发展,人们对信息的安全要求越来越高;与此同时日益增强的计算能力,使得一直占据着公钥密码系统核心地位的RSA密码系统,面对人们的需求已显得力不从心。椭
网络流量测量是对网络性能进行分析和建模的基础。随着网络技术的发展,对网络流量测量技术提出了更高、更新的要求,要采集到全部流量非常困难,而保存和处理流量日志也要耗费大量
大规模网络存储系统在时间和空间上呈现出多种复杂性,其状态和存储事件具有时空离散性,网络拓扑、存储节点、服务规则、存储请求具有动态综合作用特征。基于对象的存储系统具
随着软件的复杂度和规模不断增长和扩大,业务数据量也在不断增长,各种商业系统对于关系数据库的依赖程度也越来越强。由于面向对象在前台应用软件中的广泛应用,需要一套完善
知识是人类认识客观世界的结果,同时也是指导人们行为的准则,在知识经济的时代里知识是社会发展的重要动力,是决定生产力发展的主要因素,特别是随着时代的发展,环境的变化,认识的深
学位
数据仓库技术是近年来数据库研究、开发和应用最活跃的分支之一,也是决策支持系统的关键因素,数据仓库是一个支持管理决策过程的、面向主题的、随时间而变的数据集合,它是集
Web-GIS是当前GIS发展中的一个热点,它是利用互联网技术来扩展和完善地理信息系统的一项新技术,其核心是在地理信息系统中嵌入HTTP和TCP/IP标准的应用体系,实现互联网环境下的空