无监督环境下自动离散化算法研究及应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:sea0075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离散化就是将连续特征转化为离散特征,它是数据挖掘中常见的数据规约方法之一,是数据预处理的一个重要过程,直接关系到挖掘和学习的效果。在机器学习和数据挖掘中,存在很多的算法只能处理离散型的数据,如决策树、关联规则及基于粗糙集理论的许多方法,这些算法对于连续型数据却不适用,也有很多算法处理连续型数据的效率比处理离散型数据低下。所以有必要对连续特征进行离散化,将连续特征转化为离散特征,这样不仅可以节约存储空间,改进数据挖掘结果的可理解性,而且可以提高算法的运行效率。目前离散化算法主要分为有监督的离散化算法和无监督的离散化算法。   对离散化算法的已有研究主要集中在有监督的离散化算法体系,主要是因为有监督的环境下数据集具有类信息,可以依据类标签作为划分区间的依据,或者借用如熵、卡方等统计量作为确定断点的准则,典型的有监督的离散化算法主要包括1R算法、MDLP算法、Chi2算法、ChiMerge算法等。而无监督的离散化算法则相对研究较少,传统的无监督离散化算法主要是分箱法、聚类法等。由于无监督的环境下数据集缺少类信息,离散化过程往往缺乏指导依据,导致无监督的离散化算法研究比较缺乏。但是实际数据集往往是不具备类信息的,难以使用丰富的有监督离散化算法,只能使用无监督的离散化算法。所以本文对无监督环境下的离散化算法进行研究,期望提出一种有效地对不具有类信息的数据集进行离散化的算法,实现对无监督离散化算法体系的丰富。   传统的无监督离散化算法如分箱法、聚类法都存在着各自的缺陷和不足。等宽分箱法和等频分箱法对于分布均匀的数据才可能产生良好的离散化结果,依靠聚类产生的离散化结果受聚类算法本身特点和性能可能有较大偏差。无监督的离散化算法在缺乏类信息指导的情况下,一般需要根据数据的分布对特征进行离散化,而已有的离散化算法往往只适用于特定分布的数据集。如果离散化算法能够有效应对各种分布的数据集,将大大扩展算法的适用性和实用性。   本文提出一种基于传统的分箱法,结合数据集的原始分布特征,构建评价函数指导离散化过程的无监督离散化算法,这种算法不只适用于特定的分布。首先,选取特征取值分类汇总图中的局部极小点作为初始候选断点,这样做的目的是为了降低离散化结果对断点划分的敏感性,利用初始候选断点将原始特征区间划分成小区间。然后,针对某些特征取值分布的初始候选断点过少的情况,通过二分法拆分跨度过长段获得更多的断点,以便最终的离散化结果是尽量均匀分布的。然后,如果两端的区间所含实例数过少,可考虑将其合并到相邻区间中。如果某些分布所含的初始候选断点过多,可考虑采用平滑过程去除过多断点,提高算法的运行效率。最后,进行野蛮合并,采用宽度和频数指标构建的评价函数选择最优的合并方案,直到达到合适的离散化区间数。   鉴于无监督环境下的离散化结果难以衡量,故本文借鉴有监督离散化算法的评价方法,使用数据集建立分类树的预测准确率衡量,所以选取了UCI数据集中若干个具有类信息的数据集使用本文算法进行离散化,并对其有效性进行验证。在具有类标签的环境下,使用本文无监督算法对数据集中的连续特征进行无监督离散化,然后使用离散化后的数据集通过NaiveBayes算法建立分类树,通过衡量预测分类的准确率的高低,可以判断离散化结果的好坏。实验表明,本文提出的无监督离散化算法能够有效地对各种分布特征的数据进行离散化,并且离散化后的数据集保持了较高的分类预测准确率,这说明本文算法的离散化结果保留了特征建立良好决策结构的能力,离散化是比较有效的。   文章最后将本文的无监督离散化算法应用于某高校人力资源数据集,结合教育领域的背景,对连续特征进行离散化,然后再进行关联规则分析,结合实际意义分析了被挑选出来的重要关联规则,从应用的角度进一步验证了本文无监督离散化算法的有效性。
其他文献
期刊
期刊
期刊
大型工程决策和实施对国家、社会发展具有持续、深刻影响,因此任何大型工程的产生与确立都应该且必须建立在科学决策的基础上。随着工程在社会经济发展中地位不断提高以及工程
期刊
随着信息技术在企业中的战略地位日益提高,有效的IT治理正逐渐成为企业竞争力的重要来源之一。为了符合相关法规的要求,更重要的是管理好企业内的信息技术资源,推动其价值实
学位
本文通过对荣华二采区10
期刊
期刊
期刊
AIM To analyse the long-term prognostic impact of circulating tumour cells(CTCs) in gastric cancer patients who underwent surgery. METHODS A 7.5-m L peripheral