论文部分内容阅读
流形学习算法作为主要的非线性降维算法已经在包括数学、生物学、医学、计算机科学等许多研究领域引起了广泛关注。流形学习算法包括等距映射、局部线性嵌入、普拉斯特征映射、极大方差展开等有效的流形学习算法和分解整合类等非连通流形学习算法,但这些算法都有各自适用的数据集,即不是对所有的数据集都适用。本文针对流形学习算法的数据集判定问题进行了研究,具体内容如下。首先,针对一个中心对称数据集合的数据类型判定问题,提出一个中心对称流形数据类型的判别算法。算法分为两步,首先利用外心近似流形的中心点,利用边界检测算法寻找流形的边界点集,然后寻找本质低维表示中距离最远的两个边界点对应在高维空间的两个边界点,通过判定这两个点的最短路径是否通过流形的中心点,来判定数据集是否为等距数据集,形成了一个解决“数据适用性问题”的思路。其次,针对非连通流形学习算法中的分解整合类算法基于等距流形学习算法对每个子数据集进行降维,使得算法不能准确得到一些子数据集的低维表示,从而影响整个数据集降维准确性的问题,提出了一个改进的综合的非连通流形学习算法。该算法在现有分解整合算法的基础上,引入了LLE基础算法,将ISOMAP和LLE都作为基础算法,并通过调整分解整合算法的基本步骤,改进了现有的分解整合算法。最后,构造了测试数据集。在中心对称流形数据类型的判别算法的实验中,用中心对称流形数据类型的判别算法对数据集进行了实验,直观展现了算法的过程,结果表明中心对称流形数据类型的判别算法能够准确判别数据集的数据类型;在综合的非连通流形学习算法的实验中,通过与过渡曲线算法的比较,可以看出本文算法准确得到了数据集的低维表示,直观展现了本文算法的优势。