论文部分内容阅读
近年来,在光滑性和聚类一致性的假设下,图上的随机游走技术主要被用于一类标签传播学习算法的设计。标签传播的核心思想是,带标签的结点在图上的随机游走过程中通过向无标签结点的移动来传递自己的标签。因为个体的无记忆性和游走的无限制性,这一类迭代优化算法比较容易找到一个形式化的解析解。但是,迭代过程中涉及到所有结点之间的多步转移,略显冗余,而且所得解析解中往往含有复杂的矩阵运算,可扩展性不强。再者,上述自由化的随机游走过程中,每个标签结点都是同等对待的。可是,当噪声和误差存在时,相关个体在标签传播过程中,会使得噪声和误差不断延续和扩大。故对已标记结点的有效利用仍是值得探讨和改进的方面。相对于无约束和无记忆性的随机游走,一些较为复杂的群体游走更具有一定的研究意义。例如蚁群优化算法,一般每个个体的游走行为被限制为觅食行为、图探索行为和回巢行为等。具体来说就是,蚂蚁只能访问图上的每个结点一次。进一步地,个体转移过程中不仅依赖启发值,还根据个体游走的历史信息的指引向着最优解移动。但是这类群体智能方法往往存在着调节参数过多,所得解不一定是最优解等问题,从而限制了其在相关领域的实际应用。一直以来,学科交叉融合或不同思想结合都是创新的来源之一,同时也是促进人工智能进一步发展和应用的一种不可避免的趋势。例如,数据挖掘就是机器学习、统计学和数据库技术等学科的有机结合,现已成为了研究热门之一在这一背景下,本文提出了该课题,创造性地结合了群体智能、随机游走和机器学习的想法来进行数据的挖掘分析。考虑到数据分类问题的背景,我们提出了智能随机游走的概念,从整体层次上将带标签数据集作为一个群体,对群内成员加以约束和引导,使它们能够协调地解决一些复杂问题。本论文的具体贡献如下:互补子群随机游走学习。我们在智能随机游走理念的启发下,针对分类问题建立了一个群体随机游走学习框架。基于此框架,我们研究了互补子群随机游走学习,同时从优化有监督分类性能的角度入手,引入一种互补懒散组合优化策略,并先后提出了监督式懒散随机游走分类器和监督式多步随机游走分类器。我们从实验上证明了,所提出的组合方法可以大大提升基础分类器的性能,还通过实际应用的对比显示出该分类器的优越性。多子群随机游走学习。我们进一步对群体随机游走学习框架加以改进,研究了多子群随机游走学习,以对应于多个不同标签的存在。为解决半监督多分类问题,我们将多子群模拟为具有不同信息素的蚁群,通过信息素传播来替代以前的标签传播,提出了一个多蚁群随机游走分类算法。实验结果证明了其好于其他的半监督分类算法。然后,借鉴于第四章的基于置信度的标签传播分类算法,我们同样对多蚁群随机游走分类算法加以改进,提出了基于置信度的多蚁群随机游走分类算法。这两个算法都通过实验证明了其有效性。进化群体随机游走学习。在结合了时间约束和光滑性假设之后,我们提出了一个进化蚁群随机游走分类算法。该算法受基于置信度的多蚁群随机游走分类算法启发,但稍有不同的是,未标记的实例被看作是未标记的蚂蚁,它们可以自主选择自己喜欢的蚁群并加入其中。这在本文中被认为是在信息素更新过程中的回巢反馈。此后,自然选择过程进行,以保持历史种群的信息及其规模,保持数据过度的光滑性。理论解释和实验结果表明,我们提出的算法对于演化数据分类展现出了不错的适用性和出色性。