论文部分内容阅读
本文提出了数据可视化效果更加自然的位置可调SOM算法。自组织映射的迭代优化方法会使其陷入局部极值,进而降低数据可视化的质量,ISOMAP算法可用来对其进行指导以避免局部极值。此外,ISOMAP算法还能很好地对嵌入在高维欧氏空间中的低维非线性流形进行可视化。然而,ISOMAP算法对其参数——邻域大小比较敏感,进而在一定程度上是拓扑不稳定的,而邻域大小在实际中又难以有效选取。本文对这一问题也进行了研究,不但初步解决了邻域大小难以有效选取的问题,而且还进一步提出了对邻域大小不再敏感进而更具拓扑稳定性和鲁棒性的ISOMAP算法。另外,还在一定程度上拓展了ISOMAP算法的应用范围。主要创新工作有:
1.针对现有位置可调SOM算法都不可避免地会遇到神经元的过度收缩而为此引入的额外控制参数又难以选取的问题,提出了一种新的位置可调SOM算法——PASOM算法。该算法能有效避免神经元的过度收缩问题,同时,它的额外控制参数也比较容易选取。
2.针对现有位置可调SOM算法以及PASOM算法都需要额外控制参数并且它们都严重影响着数据可视化质量的问题,进一步提出了一种新的位置可调SOM算法——DPSOM算法。该算法能在无需任何额外控制参数的情况下自动避免神经元的过度收缩问题,同时还能更好地保持神经元间的距离信息,从而进一步提高了算法的可控性和数据可视化的质量。
3.针对ISOMAP算法对邻域大小敏感而邻域大小在实际中又难以有效选取的问题,提出了一种更加高效实用的参数选取方法——基于最短路径长度总和的参数选取方法。该方法具有比基于残差的参数选取方法更小的时间消耗,同时还能为后者提供进一步的合适邻域大小的上界。此外,还提出了对邻域大小不再敏感进而更具拓扑稳定性和鲁棒性的ISOMAP算法——CG-ISOMAP算法。实验证明该算法还能在不依赖于邻域大小的情况下发现数据真正的内在维数,而ISOMAP算法在邻域大小不合适时通常会发现偏大的内在维数。
4.在ISOMAP算法中,对长测地距离的逼近精度通常会比短测地距离差,而古典MDS算法却会牺牲对短边的保持精度,本文采用具有短边优先保持特性的非线性Sammon映射来改进ISOMAP算法以缓解这一矛盾,这就是ISOMAP-Sammon算法。实验证明该算法能成功地对更多的数据集进行可视化。另外,该算法也在一定程度上解决了非线性Sammon映射对初始值和学习率都比较敏感的问题。
以上算法的可行性和有效性通过实验都得到了很好的验证,特别是CG-ISOMAP算法能更容易用来对人脸数据集进行可视化,也能得到比较好的可视化效果。