流形学习算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:Ada111222333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习是一种新的机器学习方法,而局部线性嵌入算法(LLE)和Hessian局部线性嵌入算法(HLLE)是流形学习中极为重要的两种算法。本论文对LLE算法和HLLE算法进行了较为深入的研究,主要工作有:
   1、“局部线性,全局非线性”是LLE算法最为显著的特点,因此,LLE算法也一直被当作一种非线性的数据降维方法而理解和应用。但是,本论文提供的数学推导表明:LLE算法保持非线性的性质是有条件的。当每个数据点的邻域的个数大于数据点所在的高维空间的维数时,LLE算法将失去“全局非线性”的性质,蜕变成一种线性的数据降维方法,其数学关系和实际效果与PCA算法基本相同。
   2、在LLE算法中,当数据点的邻域的个数大于数据点所在的高维空间的维数时,人们通常采用正则化的方法解决解的唯一性问题。本论文提供的理论论证和实验数据都表明,仅就LLE而言,正则化方法不是一种鲁棒性的方法。正则化的效果取决于正则化因子的选择。正则化因子太小,则效果不明显,正则化因子太大,则会破坏LLE算法“局部线性”的优点。在“瑞士卷”上的实验表明,即使正则化因子选择适中,在数据降维的过程中,正则化方法也会改变数据原有的相对距离关系。
   3、数据点邻域的选择是否合适几乎是所有流形学习算法成败的关键。HLLE算法也不例外。在理论上,HLLE算法需要寻找数据点的切空间的标准正交基,但是,在实践上,HLLE算法只能求取数据点的邻域的中点的切空间的标准正交基。因此,本论文提出一种数据点邻域的选择原则:数据点邻域的选择应该使得邻域的中点尽量接近数据点。实验数据表明,本论文提出的改进算法能取得较好的效果。
   4、大量实验证明,HLLE算法对邻域大小非常敏感。若所选邻域超过了线性范围,将会严重影响HLLE算法的性能。本文基于非线性度Si的定义,提出了一种自适应邻域大小的计算方法。实验证明这种方法比原HLLE算法更为稳定和有效。
其他文献
学位
学位
学位
学位
会议
会议
期刊
学位
学位
学位