粗糙集在海量科学数据挖掘中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:youzhangyale
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展,需要处理的信息量迅速增加,要把海量科学数据作为信息,信息成为知识,迫切需要利用能从海量科学数据信息中发现、推理知识的有效方法。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。为了得到好的挖掘结果,数据预处理是进行数据挖掘工作前不可缺少的工作。数据预处理就是把不便识别的数据转化为易于识别的规范数据的信息处理过程。在整个数据处理过程中,规范化和属性约简是处理的核心。如何除去无意义的属性不但是技术上的关键问题也是理论研究上的重要课题。近几年来,粗糙集理论已在属性约简方面开始表现出它的潜力。多方面的研究和测试表明,针对科学数据采用粗糙集的方法进行约简可以为后面的知识发现提供方便,提高模式识别的性能,从而达到更好的挖掘效果。科学数据具有维数高、数据量大,数据不完全,有噪声等特点,本课题在现有的数据库和windows 平台上,开发一个具有开放体系结构的、易扩充的、易维护的、具有良好人机交互界面的数据挖掘系统,从科学数据中提取隐含在其中的有用的知识,为科学计算中的仿真信息提供符合规律的模拟结果分析。目前已经完成了一个最基本的数据挖掘系统,实现了如下功能:在数据预处理方面,包括对数据库中数据进行离散化处理、对冗余属性的约简,降维;在知识发现方面主要是分类、聚类以及关联规则提取。测试结果表明基本上达到了设计要求。本论文主要讲述数据挖掘中采用粗糙集方法实现数据预处理中冗余属性约简的问题。论文首先介绍了数据挖掘的基本概念,接着介绍了粗糙集的一些基本知识及其在属性约简方面的应用;第四章介绍了信息熵及其与粗糙集的结合应用;第五章介绍了一些基于粗糙集的属性约简的常用算法,并提出了对MIBARK 算法的改进;第六章介绍了目前的数据挖掘系统的功能及属性约简在整个系统中的应用。
其他文献
Internet的迅猛发展带来了一系列问题,例如路由、资源预留和网络管理等问题。由于在Internet上实验非常昂贵而且因为一些商业因素的限制,研究者不可能直接在Internet上模拟和
机群就是通过高性能网络或局部网络将一组计算机系统(节点)互联,形成的具有单一系统映像的高性能、高可用性、高扩展性的计算机集群系统。由于机群系统结构松散、结点独立性
本文主要介绍了手持设备汉字输入法的自动生成技术,并利用该技术实现了一个手持设备汉字输入法自动生成器。该生成器提供了一个开放的模板库与码本自动压缩模块,可以为用户提
本文所讨论的消息服务规范ebMS就是为B2B电子商务模式提供信息交换平台的机制,它是整个商务模式的基础,具有关键作用.本文围绕ebMS给出其规范分析、平台实现、对此平台进行的
  本文在研究了基于支持向量机的音乐分类方法基础上,针对隐马尔可夫模型适于处理连续信号和支持向量机适于处理分类问题的特点,提出一种支持向量机和隐马尔可夫相结合的混合
铁路信号联锁系统是行车安全的技术保障系统,就技术方面而言,铁路信号系统已经历了机械联锁、电气联锁(继电联锁)等阶段.随着电子技术、计算机的发展以及容错、避错理论与技
随着网络信息的发展,信息自动分类已经成为人们获取有用信息不可或缺的工具。贝叶斯作为其中的一种分类方式,应用在众多领域。贝叶斯方法的一大优点是利用了先验信息,能够在
程序理解在软件维护、遗留系统的现代化改造以及软件逆向工程等领域的关键技术。它具有重大现实意义和经济价值,不但可以避免重复劳动,提高软件生产的效率和质量,而且可以将
本文研究了图像融合的关键技术:图像拼接和超分率图像复原技术中的基本理论和算法。 视频图像拼接的关键步骤是图像对齐,即计算重叠图像间的运动场。本文针对摄像机旋转运动
随着生活智能化程度的提高,各种智能系统已成为了生活的必需品,其中自动人脸识别系统更是以实用性强的特点受到极大的关注。相比于传统的基于指纹或基于虹膜的识别系统,人脸识别