数据挖掘领域中若干预处理方法研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:xingyunzhixingkirk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中数据具有不完整,不一致等特点,为了提高数据挖掘的质量产生了数据预处理技术。本文介绍了粗糙集的理论知识,并在此基础上,主要做了以下两个方面的研究:1、在传统基于属性依赖度的约简方法基础上,定义更精确的强化正域概念。通过对边界域的精确划分,确定各条件属性对决策属性的强化依赖度,并用自顶向下的启发式搜索算法得到约简结果。通过对UCI数据集实验,结果表明,相比于经典方法,REPR能更有效地对决策表进行属性约简。2、首先对离散化问题形式化描述,并采用最优化方法进行离散化定义;其次基于信息熵思想分别定义修正信息增益率IIGR和统计相似性SIS作为离散化的最优化目标函数,并给出离散化约束条件;最后采用遗传算法实现连续属性的离散化。采用UCI数据集实验对比,在统计意义下,本文离散化方法实现离散区间数少,离散后数据集构建决策树的规模小,分类精度高,表明以最优化为指导,多个连续属性并行离散化兼顾属性间的关联关系,数据离散化更加有效。
其他文献
近年来,国家高度重视计算机系统平台的自主化,国产软硬件产品发展迅速。国内各类产品层出不穷,带来了产品质量参差不齐的问题,生产厂商需要有效的测试工具对其产品进行性能测
二十一世纪被人们誉为信息时代,当今的信息技术发展的主要特征是数字化、网络化和智能化。利用计算机实现对信息处理的智能化,是信息时代的重要标志。众所周知,除了人类社会
随着互联网的高速发展以及智能终端的快速普及,基于无线局域网(简称WLAN)的应用越来越广泛,密集部署WLAN为用户提供了高速接入服务。然而,现有密集部署WLAN环境中,存在很大的
随着大规模并行计算技术的高速发展以及GPU硬件水平的不断提高,越来越多拥有并行化特点的算法在其并行化阶段运用到了GPU并行计算技术。而人工蜂群算法具有部分并行化的特点,
传统的合金设计理念认为,合金元素越多越容易形成金属间化合物而恶化合金的性能。高熵合金概念的提出,是对传统合金设计与开发理念的创新与突破。高熵合金由于具有多主元效应
大规模多输入多输出(Massive Multiple-input Multiple-out,Massive MIMO)技术通过在基站侧部署大数量的天线来获得更大的空间自由度,极大地提升了系统容量和频谱效率,能够有
人体行为识别有基于视觉工具和基于可穿戴设备的研究方法,通常视觉设备费用高,在实际应用中受到监测范围的限制。随着微机电系统的迅速发展,惯性传感器具备价格低廉、尺寸小
传统网络支持了大量的协议和各种设备,使得网络越来越复杂,反而造成一些功能的下降,不光阻碍了现有网络的继续进步,而且不能跟上而今互联网+技术、云存储、海量与种类并存的
访问控制理论一直是信息安全领域的研究重点。访问控制能够有效地保证资源被合法地访问,防止非法使用。目前,网络环境不断发展,接入的对象更加多元化,特别是对于那些有WEB门
基于广义估计方程样本量的计算在各个领域的应用已经非常广泛,也引起了各届研究学者的高度关注。对于基于广义估计方程样本量计算的数据,我们研究响应变量集群内的各数据间具有相关性的纵向数据。本文对基于广义估计方程推导出的样本量的计算公式,探索在不同数据结构和工作相关结构下对样本量的拟合效果的影响,进行数值模拟分析。最后结合实际的数据进行分析。本文的研究工作主要包括:(1)开始先介绍了本文的选题背景和意义,