论文部分内容阅读
随着数据收集和存储技术的不断进步,越来越多的数据出现在各个领域当中。数据的不断丰富加大了对海量数据分析方法和技术的需求。传统的数据分析方法在处理海量数据时,往往计算量很大,且难以从整体上掌握样本的性质。符号数据分析(Symbolic Data Analysis, SDA)技术通过对数据进行压缩处理,在一定程度上克服了传统数据分析方法的缺点。区间型数据作为最常见的一种符号数据,具有重要的研究意义。对区间型符号数据进行特征选择,可以降低数据的维数,提取数据的关键特征。要对区间型符号数据进行分析,首先要考虑区间数的相似性度量问题。因此,本文首先整理了比较常见的几种区间数相似性度量方法,并对其进行比较分析,发现区间数Hausdorff距离和区间数欧氏距离更符合区间数产生的意义,并将它们作为后续算法度量区间数相似性度量的基础。另外,本文给出了一种新的区间数距离度量方法,可以依据不同的分布调整相应的参数,以更好的表示区间数的意义。然后,由于原有的区间型符号数据特征选择方法不能识别类中心分别相互靠近的特征,所以针对此缺点本文提出了一种新的特征选择方法(FSMSID),该方法通过建立使得样本点与其所在样本类中心相似性与其他类中心相似性均值的差值最大化的优化模型,利用Lagrange乘子法求得区间型符号数据的特征权重,然后基于得到的特征权重构建相应的最近邻分类器,并以分类器的精度来评价所估计特征权重的优劣。在评价分类器的精度时,本文采用了十折交叉验证的方法。最后,为了验证本文方法的有效性,分别在人工生成的数据集和真实数据集进行了数值实验,数值实验结果表明,本文方法可以有效地去除无关特征,识别与类标号有关的特征。为了验证区间型符号数据分析方法相比于传统点数据处理方法的优越性,将FSMSID方法应用于胎儿心率监测数据集Cardiotocographyo首先要对Cardiotocography数据集做一定的预处理,然后将其转化为区间型符号数据,将FSMSID算法应用于该数据。最后通过与最近邻分类器在精度、时间复杂度上相比较,以验证区间型符号数据分析在处理大规模数据上的优点。此外,为了验证区间型符号数据比仅依靠样本均值表示数据的好处,分别依据所“打包”生成的区间型符号数据和“打包”样本点的均值,产生最近邻分类器,通过比较其对应分类器的分类精度来说明区间型符号数据比较起样本均值的优势。