面向高维数据的多流形学习算法研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:LINGER123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习是机器学习与数据挖掘领域的一个重要研究方向。其研究目的在于揭示隐藏在高维数据集中的内在低维结构,从而能够重构并进行非线性维数约简或者实现数据的可视化。经典的流形学习算法总是假设高维数据批量存在于单一流形,但是现实生活中纷繁复杂的数据大多存在于多个不同流形上,而且往往不可能一次性获取,甚至这些流形之间可能还存在严重的交叉重叠。因此对多流形数据的识别分解与多流形的增量学习是流形学习研究中的一个重要的课题。本文针对等维独立多流形数据的增量问题与相交多流形数据的识别分解进行了研究,主要内容如下:(1)针对目前多流形分解算法普遍不具有增量能力这一现状,提出一种针对等维独立多流形的增量学习算法IMM-ISOMAP。首先通过动态邻域算法计算每个新增样本的邻域信息,然后结合原来已经得到的子流形信息通过扩展的方式将新样本依次划分到新的子流形中,在新子流形中仅修改受影响的关键路径,这种增量式的处理避免重新计算全部的邻域关系,同时对新得到的子流形中由于新增样本可能造成的“短路”或者冲突路径进行检测并处理,最后依据各子流形间的邻接关系拼接出整个样本集的最终低维嵌入,进而实现其数据集的可视化。通过在人工的增量数据与不断增量变化的实际数据上进行实验,结果都表明该算法可以有效分解多流形数据,而且算法的增量能力,将来能很好的应用于大规模数据。(2)针对目前尚没有一种能够很好处理相交多流形数据的算法,本文基于MPPCA模型提出一种面向高维相交多流形数据的分解算法D-MPPCA。首先利用动态邻域算法计算每个样本数据的切空间与近邻关系信息,然后利用MPPCA模型将相交多流形数据分成若干个“不相交块”,最后通过扩展这些“不相交块”而实现对相交多流形数据的识别与分解。结果表明,该算法在人工相交多流形数据和实际高维图像数据上均有很高的分解精度,相较于其他算法极大的提高了辨别能力。以上研究工作一方面在处理多流形数据时对现有流形学习算法作出了改进,不仅得到更准确的邻域图,而且通过引入增量学习,大大提高了算法的效率。另一方面使得算法能够很好的识别相交多流形数据,大大提高了算法分解多流形的精度。同时也为进一步的研究工作打下扎实的基础,相信此类算法的不断改进可以为数据降维与图像分类问题提供一种新的思路。
其他文献
如何表示数据和怎样自动发现options是强化学习面临的两个巨大挑战。近年来分层强化学习在解决“维数灾难”问题方面取得了显著进展,其主要思想是将任务层次分解为子任务,从而加速智能体的学习和规划过程。目前的层次化分解方法基本都是根据先验知识预先设计好的,并不是自动生成的。特别是在动态变化的复杂领域,单凭先验知识预先设计层次结构,在实际应用中很难实现。子任务的自动发现问题已经成为分层强化学习研究领域的
成岩作用直接影响储层的孔隙演化,控制储层物性及含油性,厘清储层的差异成岩作用及其与油气充注的序列对油气勘探具有重要意义.通过岩芯观察和各类薄片显微镜下鉴定统计,综合
近年来,随着社会的发展和各种不良思潮的散播,如在建筑企业的运营过程中统计数据造假等行为多发,严重影响了企业的顺利发展。因此,如何防范统计数据造假行为是当前我国各个建
氢键已经发现了100多年,迄今为止它仍然是科学研究的重要课题。氢键的研究涉及从无机到有机众多学科,例如材料科学、生物化学、分子医学等。液态水是一种重要的化学溶剂,它很
通过实践研究表明,将语篇分析理论合理的应用到高中英语阅读教学中,具有十分好的效果。本文简要分析了高中英语阅读教学的语篇分析理论,希望可以提供一些有价值的参考意见。
以心摄境妙意横生中国人历来秉持一种"浑融"的世界观,映射在艺术创作中即是讲求一种和谐、统一的视觉效果,具体一点讲就是注重"气"的氤氲之感。这是道家美学留给我们的遗产,也是
背景:缺血性脑卒中是一种高致残率及高致死率性疾病。大量研究表明,脑缺血损伤后炎症反应是疾病进展的主要原因,是缺血性脑卒中的重要病理生理机制之一。脑缺血损伤后中枢神
随着我国改革逐步深化,国民经济得到了飞速发展,生活水平不断提高,人们的生活方式有了很大转变,对生活质量的追求使得人们通过旅游、体育等相关途径达到愉悦身心、改善体质等
从《北方的纳努克》诞生起,纪录片就带有强烈的故事化倾向,尽管关于“故事性”和“真实性”的对立讨论一直此起彼伏,但在影视产业日趋商业化的助推下,富有趣味性、观赏性的“
面对中国传统文化的巨大同化作用,佛教在唐代呈现出明显的民众化倾向。本文首先分析了唐代长安寺院的发展和分布情况,然后从建筑设计、佛塔、佛像等三个不同角度探讨了唐代佛