基于粗糙集理论的数据预处理研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:waq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法己不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗糙集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗糙集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。本文主要围绕基于粗糙集的数据预处理中数据补齐和连续属性离散化展开讨论。首先,综述了粗糙集理论的研究现状,分析和归纳了与数据不完备性相关的重要问题以及处理缺失值的各种方法;在此基础上,分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对己有的基于粗糙集不完备信息系统补齐算法的缺陷,提出了基于量化相似关系模型,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则矛盾的问题。然后,对目前流行的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙信息熵的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。最后,指出本文创新之处以及存在的问题和努力的方向。
其他文献
实际的控制系统中经常存在时滞现象.而这些时滞是造成系统不稳定和性能变坏的根源.同时,外界干扰、测量误差和建模误差也会引起系统的不确定性.所以对不确定时滞系统的控制问题近
随着网络技术的飞速发展和网络应用范围的不断扩大,对网络的各类攻击与破坏与日俱增。在网络安全问题日益突出的今天,如何迅速有效地发现各种入侵行为,对于保证系统和网络资
惯性导航系统(INS)是水下导航的核心,然而惯性导航系统存在随时间累积的无法消除的误差。利用重力梯度辅助导航方法,定期对惯性导航系统误差进行修正的导航系统,是一种能够提高水
本文以接触网零部件疲劳试验机为研究对象,利用数字控制的优势和现代控制理论的有关成果,旨在改进原来的模拟系统。根据疲劳试验机的固有特点,提出针对性的数字控制算法,同时研制出原理样机,使其能根据需求,完成满足一定规律的可控试验过程。首先,作者在阅读了大量的国内外资料的基础上,概述了国内外公司在疲劳试验机控制器方面的研究成果,并根据我们的项目需求,提出了本论文要解决的问题。文章在分析了试验机工况的基础上
连续退火炉快冷段带钢出口温度的精度直接影响带钢的组织性能和力学性能,是保证带钢质量和板形良好的重要因素。快冷段冷却过程工艺要求严格,控制手段复杂,在各冷却段中起着
球杆设备是学习和研究控制理论的重要平台之一。对球杆设备的研究可以归结为对非线性系统和不稳定系统的研究,这类复杂控制对象难以用数学公式进行精确描述,采用经典控制方法
随着世界上可再生能源的日益发展,各种可再生能源技术的研究也越来越受到重视。风能己经成为受世界各国普遍关注的能源,所以风力发电技术的研究和应用在这几年中突飞猛进。本文主要研究基于DSP的变速恒频风力发电机网侧变换器,选用了三相电压源型PWM整流器拓扑结构,内容主要包括:介绍了PWM整流器四象限运行的工作原理,建立了PWM整流器在不同坐标系下的数学模型以及使用电压电流双闭环控制策略的控制系统设计。设计
青霉素发酵过程是一个具有高度非线性、时变性和复杂相关性的生化过程。发酵过程中状态的控制决定了青霉素的产物效率,因此对青霉素发酵过程进行建模与控制研究具有现实意义
随着我国经济及交通事业的发展,汽车得到了广泛的应用,己成为现代社会的标志之一。但由于汽车发动机结构复杂,工作条件恶劣,使得汽车发动机故障率较高,维修保养费用较大。因
建筑环境特别是居住环境质量受到越来越多的重视,办公或居室内的温度、湿度、空气品质、噪声水平等等都是人们关注的问题。但是由于建筑环境中的信息来源复杂,信息格式并不一