论文部分内容阅读
大数据时代的快速发展,使得数据库中的数据量呈日益增长的趋势。这些数据的特点为:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。对于这些具有多样性、海量型的数据集,数据约简是大数据面临的首要问题。如何采取高效的技术手段,从大量的数据中迅速获取最有价值的信息,使数据集达到约简的效果,成为了一项研究热点。粗糙集理论是用来处理不精确、不完整及模糊信息的一种数学工具。它具有很强的定性与定量分析能力,能有效地表达不确定或不精确的知识,并能利用不确定、不完整的经验知识进行分析、推理。属性约简是粗糙集理论研究的核心内容。研究者们提出了许多有关属性约简准则的方法,它们存在的共同点:属性约简都只是在某一约简准则下保持分类不变、信息不变。本文将围绕“属性约简不损失信息”的观点进行探究与实验,在信息论的基础上,定量的分析属性约简产生的信息损失,并结合实例探究了属性约简信息损失对数据分类的影响,证明了人们长久以来对属性约简信息损失存在的误区,为进一步研究粗糙集的属性约简与分类奠定了信息论基础。本文主要创新点如下:1.提出粗糙集的条件属性约简准则。对粗糙集中存在的属性约简准则进行综合分析与总结,归纳出属性约简满足的一般规律。基于这个一般规律,提出新的属性约简准则方法,并运用实例验证其合理性与有效性。2.提出粗糙集中属性约简信息损失的度量及计算方法。本文从概率论、信息论两个角度出发,定量观察、分析不同的条件属性约简准则,比较约简前后属性发生的变化。信息熵在热力学中是用来表示信息中排除冗余后的平均信息量。本文将借助热力学中信息熵的概念来探究Pawlak粗糙集中属性约简的信息损失,进而给出属性约简信息损失的度量方法及计算公式。3.探究属性约简信息损失与分类准确率两者之间的关系。该实验采取十折交叉验证方法,运用十组数据最终计算的的平均值,作为探究不同数据集各种属性约简的信息损失对数据分类的潜在影响。4.探究属性约简信息损失在多粒度粗糙集中的应用。本章采用联合熵来度量多粒度粗糙集属性约简的信息损失,相对于信息熵而言,增加了决策属性的参与,使数据的划分更加精确细致。根据粒度信息损失的特点与性质,设计粒度信息损失属性约简算法。