论文部分内容阅读
统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是独立且同分布的。然而在现实世界中存在着大量的半结构化关系数据,如超文本、Web网页(网站)、Web图像、数字图书、教育资源等,这些数据集合由不同类型的数据对象组成,数据对象本身具有复杂的内部结构,同时不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。传统的统计学习方法忽略了数据对象间的关系结构,而这些语义信息却有助于使学习算法具有更好的性能。因此本论文研究的中心内容就是如何在统计机器学习中明确地利用数据实例间的关系信息来构建健壮的学习模型。本论文采用的主要方法论是上下文建模与分析。在研究中,上下文被定义为使得目标对象具有唯一的和可理解的语义的关联对象和其他影响因素的集合;相应地,上下文依赖关系则是传达了明确语义相关的“关系”。论文在对上下文分析和建模、统计关系学习等两方面的研究现状进行全面综述的基础上,以不同的应用问题为背景,开展了基于上下文分析的统计关系学习方法的研究。创新和研究成果如下:第一,提出了基于多粒度语义模型的Web站点挖掘方法。Web站点可以看作是一种具有复杂结构的超文本文档。论文用多粒度树来作为站点的描述模型,同时提出四种上下文模型来刻画树中结点间的主题相关关系。在此基础上,论文采用隐Markov树作为树结构的统计模型,研究了两阶段分类和多粒度分类等两个Web站点分类算法,以期通过利用结点间的上下文依赖关系来优化分类性能。同时,还利用两阶段文本去噪程序和基于熵的页面树动态剪枝策略来减少网页下载开销并进一步提高分类准确率。实验结果表明,多粒度语义模型能有效地刻画复杂对象内部的上下文依赖关系,而相应的分类算法能在较少的时间开销内达到较高的站点分类准确率。第二,通过扩展依赖网络模型,提出了一种上下文依赖网络模型(CDN)来刻画链接结构中的上下文主题依赖关系。在各种现实的链接关系数据(如Web)中,噪声链接或不相关“关系”是普遍存在的。为刻画这种复杂的链接规律性,CDN模型用链接特征和互信息来定量刻画链接对象间的上下文依赖关系,并利用一个简单但有效的上下文优化方法来优化对象的关系近邻,从而有效地减少噪声链接信息对分类过程的影响。CDN模型具有对链接特征的选择能力,易于适应不同的内容模型,并比传统的DN具有更简单的参数估计。实验结果表明,CDN模型在噪声数据集上具有较好的健壮性,并能为链接对象的属性提供较好的预测。第三,提出了链接语义核来刻画链接对象之间的语义关系。特别地,将链接图中的语义相关关系看作一种扩散过程,提出了一种“语义扩散核”,并在核空间利用特征分解来获得潜在链接语义核。在此基础上描述了两类基于链接语义核的算法,即核化上下文依赖网络(KCDN)来进行协作分类,以及基于链接语义核的相关页发现算法。论文在