几何观点下的线性降维算法

被引量 : 6次 | 上传用户:yejing00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是数字经济新时代中最大的资源,已经受到学术界、企业界和政府部门的高度重视,数据科学研究的核心问题就是“如何从大规模高维数据集中提取有价值的信息”.数据降维是高维数据分析的重要手段,通过数据降维可以实现数据可视化,发现数据中有意义的潜在结构,降低计算复杂度,获得更有利于分类或者聚类的数据表示.围绕数据降维这一主题,本文从几何的角度对数据降维中的线性算法进行研究,即将高维数据集看作是分布于高维欧氏空间中的点,数据集中样本点之间的关系可以通过欧氏距离或者其他基于相似性度量的方式来刻画,并采用图结构对数据中的几何结构和判别结构进行建模,从而将数据降维问题转换为图嵌入的问题,主要工作包括:(1)对高维数据空间的几何性质和统计性质进行综述,并通过实验分析样本点之间的距离度量对KNN和Kmeans算法性能的影响.实验结果表明分数范数的距离度量可以降低“度量集中”效应,从而提高KNN和Kmeans算法性能.(2)提出了一种基于流形假设的高维数据本征维数估计方法.高维数据集可以看做是分布在低维的流形上,因此可以根据高维数据局部几何结构关系来近似确定低维流形的维数.由于每个样本点处的局部超球内所包含的样本点个数,与其超球的半径成比例,根据这一几何关系,在每个样本点局部邻域内,通过选取不同的近邻参数构建出局部本征维数的显式表达式,由此近似估计高维数据集的本征维数.与传统的本征维数估计方法,如相关维数、最大似然估计和测地最小生成树相比,该方法计算简单,且对噪声和近邻参数选择不敏感.(3)提出了边界Fisher分析的两种改进算法.边界Fisher分析是一种经典的有监督线性降维方法,被广泛用于高维数据的模式分类.由于边界Fisher分析算法中涉及到矩阵求逆的运算,在数值计算中会产生矩阵的奇异性问题,尤其当样本的个数小于样本的维数时,导致所谓的“小样本问题”.采用主成分分析方法对样本数据进行预处理可以克服奇异性问题,然而可能会损失样本的某些判别信息.针对此不足之处,根据矩阵指数的非奇异性,对边界Fisher分析中的散度矩阵进行矩阵指数变换,从而克服了矩阵求逆中的奇异性问题.理论分析表明,该方法等价于零空间上的边界Fisher分析,有效利用了类内散度矩阵的零空间上的信息,因此其判别能力得到了增强.正则化边界Fisher分析是对高维数据中的局部差异信息、类内相似性和类间可分性进行数据建模,并采用正则化方法将其归结为迹差优化模型,在保持数据的真实几何结构的同时,增强投影矩阵的判别能力.(4)提出了一种有监督的线性降维算法——边界判别投影算法.边界判别投影算法首先将每类样本中距离最远的两个样本点看作是同类边界样本点,属于不同类的样本点中距离最近的两个样本点看作是异类边界样本点,然后以最小化同类边界样本点对应的低维表示之间的距离、最大化异类边界样本点对应的低维表示之间的距离为优化目标,同时限定投影方向相互正交的,从而增强低维表示的判别能力.在数据建模时,分别讨论了迹差准则和迹比准则下的边界判别投影算法,另外为了融入样本点的局部差异信息,考虑了正则化的边界判别投影算法,最大限度的挖掘高维数据中蕴含的判别结构和几何结构.人脸灰度图像数据经过向量化表示之后是典型的高维数据,为了提取有利于识别的图像特征,本文在实验环节采用数据降维算法进行特征提取,并对低维特征表示采用最近邻方法进行分类.标准测试数据集上的人脸识别实验验证了本文所提出的算法在判别特征提取方面的有效性.
其他文献
函件业务是中国邮政传统业务之一,随着信息时代的来临,互联网、无线通讯技术的发展逐渐取代了传统书信的沟通方式,中国邮政函件业务在发展过程中也反映出发展战略、营销策略
互联网与移动通信技术的发展为各行各业带来了创新热潮,而随着以用户为中心理念的渗透,对用户行为的分析和预测已经成为提升用户体验的重要手段。进一步,各种社交网络的流行
近年来,国家先后修订了《兵役法》、《退役士兵安置条例》,出台了大学生士兵学费补偿、退役士兵职业技能培训等一系列新政策。这些"兵役新政",对于化解征兵难问题起到了一定
<正> 李亦非:曾获1977年全国武术比赛青少年组冠军,出演过影片《神秘的大佛》和《火烧圆明园》。1999年3月,李亦非进入雏亚康姆公司,出任维亚康姆中国首席代表、MTV全球音乐
胡锦涛主席在党的十七大报告中强调指出,要完善国防动员体系,加强国防动员建设。《国防动员法》也明确要求,要建立健全与国防安全需要相适应、与经济社会发展相协调、与突发
<正> 牙痛固然以风火、湿热为多,但因脏腑虚损,肾阴不足,虚火上炎者亦不少见,其疼痛以牙痛绵绵,不红不肿(或微肿),牙齿酸软似松动为特征,余用地稔根治疗此类牙痛患者数十人,
期刊
<正>征兵工作事关国防和军队建设大局。近年来出现的"当兵冷、征兵难"现象,集中暴露了征兵工作中存在的矛盾和问题,既对完成征兵任务提出了挑战,又为推进征兵工作改革提供了