论文部分内容阅读
一、引 言
給缺失数据填补一个合理的估计值,可以减小由数据缺失而导致的估计量偏差,结合一定的方法,为数据的缺失值寻找一个或多个尽可能相似的值进行填补,得到完整的数据,由于填补值毕竟是“假信息”,因此,利用不同的信息进行填补,所要追求的只是确定填补方法的有效性和合理性,使估计的填补值尽可能地接近原始的缺失数据值.
二、基于核空间非线性距离敏感重构的主动学习
在大数据时代,机器学习问题中可能涉及的数据量规模是非常庞大的,完全标注所有数据是不现实,也是不必要的.在这一部分,我们将提出一种有效的主动学习算法.该算法可以选择出那些最重要的、最有信息含量的数据点进行标注,使得数据标注更加有效.然后,我们进一步推广了胡尧等人的工作,提出了一种基于核空间非线性距离敏感重构的主动学习算法,能够自动学习数据分布的非线性关系,通过非线性重构进一步扩大标注点的表达能力,从而减少所需要标注的数据点的规模[1].
(一)主成分分析(PCA)原理及其应用
在实际问题研究中,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的.
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生.为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失.主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法.
(二)奇异值分解(SVD)与主成分分析(PCA)的关系
PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小.
还是假设我们矩阵每一行表示一个样本,每一列表示一个feature,用矩阵的语言来表示,将一个m×n的矩阵A的进行坐标轴的变化,P就是一个变换的矩阵从一个N维的空间变换到另一个N维的空间,在空间中就会进行一些类似于旋转、拉伸的变化.
Am×nPn×n=A~m×n.
而将一个m×n的矩阵A变换成一个m×r的矩阵[2],这样就会使得本来有n个feature的,变成了有r个feature了(r
給缺失数据填补一个合理的估计值,可以减小由数据缺失而导致的估计量偏差,结合一定的方法,为数据的缺失值寻找一个或多个尽可能相似的值进行填补,得到完整的数据,由于填补值毕竟是“假信息”,因此,利用不同的信息进行填补,所要追求的只是确定填补方法的有效性和合理性,使估计的填补值尽可能地接近原始的缺失数据值.
二、基于核空间非线性距离敏感重构的主动学习
在大数据时代,机器学习问题中可能涉及的数据量规模是非常庞大的,完全标注所有数据是不现实,也是不必要的.在这一部分,我们将提出一种有效的主动学习算法.该算法可以选择出那些最重要的、最有信息含量的数据点进行标注,使得数据标注更加有效.然后,我们进一步推广了胡尧等人的工作,提出了一种基于核空间非线性距离敏感重构的主动学习算法,能够自动学习数据分布的非线性关系,通过非线性重构进一步扩大标注点的表达能力,从而减少所需要标注的数据点的规模[1].
(一)主成分分析(PCA)原理及其应用
在实际问题研究中,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的.
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生.为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失.主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法.
(二)奇异值分解(SVD)与主成分分析(PCA)的关系
PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小.
还是假设我们矩阵每一行表示一个样本,每一列表示一个feature,用矩阵的语言来表示,将一个m×n的矩阵A的进行坐标轴的变化,P就是一个变换的矩阵从一个N维的空间变换到另一个N维的空间,在空间中就会进行一些类似于旋转、拉伸的变化.
Am×nPn×n=A~m×n.
而将一个m×n的矩阵A变换成一个m×r的矩阵[2],这样就会使得本来有n个feature的,变成了有r个feature了(r