论文部分内容阅读
概率图模型(Graphical Model.Probabilistic Graphical Model)是一种结合概率论和图论,通过表示局部直接关联的条件概率刻画系统的有效工具,以其直观易懂的特点在数据处理中被广泛使用。然而随着概率节点的增多,系统的总体分析变得困难,推理通常也比较复杂。本文在正则化框架下,以凸分析为研究二具,研究监督、半监督和非监督情形下的概率图模型,形式化的目标函数简单,从而能够导出高效的推理算法:并且监督、半监督以及非监督之间的关系自然演进,能够统一在本文提供的正则化框架下;此外,设计在线算法求解正则化优化问题,能很好地平衡概率图模型的推理计算开销和泛化性能。我们首先研究多分类学习,设计的贝叶斯分类器的核心节点为输入样本特征赋予概率,标签和特征通过该概率赋值建立联系。基于对最大对数似然逻辑建立的优化问题进行分析,我们设计了计算开销极小的学习和预测方法,实验还证明该贝叶斯分类器在预测准确性和泛化性上都优于传统的多分类方法。我们的贝叶斯分类器兼具简单易懂、计算复杂性小、预测准确等优点。在半监督学习部分,我们设计了两个处理方法。第一个利用监督学习中贝叶斯分类器使用在线算法进行学习,且具有较快收敛速度和较好泛化性能的优点,让贝叶斯分类器为无标签数据预测类型标签,并将预测的类型标签和无标签数据组合在一起,用于训练。该方法是一个典型的探索-利用(Exploration-Exploitation)过程。第二个通过对贝叶斯分类器目标函数的分析,将之对应上以LogSumExp为目标函数的带约束优化问题,约束部分与类型标签有关,从而导出用LogSumExp处理元标签数据的基本框架,用于度量参数与特征数据结合的一致性。我们导出的这个框架能够覆盖k平均(k-means)方法,区别在于我们的模型基于乘积连接模型参数和无标签数据,而经典k-means使用L2距离。虽然我们在半监督学习中导出LogSumExp,但是需要说明的是该方法也可以用于非监督学习。LDA(Latent Dirichlet Allocation)和HDP(Hierarchical Dirichlet Processes)是经典的无监督自然语言处理模型。它的概率图描述中包含了大量与文本(甚至文本单词)关联的、需要进行优化处理的节点;这些节点描述概率图的局部条件依赖关系,缺少简单的整体性形式化优化问题定义,导致难以检测其合理性。在无监督学习部分,我们将LDA和HDP模型归约为正则优化问题。本文理论上的主要贡献包括:1.用LogSumExp处理无标签数据。我们对贝叶斯分类器处理标记数据的目标函数进行分析,导出了其具有定义Fenchel共轭函数使用的优化问题目标函数的形式;通过对约束优化问题和Fenchel共轭定义的关联,提取约束优化问题目标函数部分LogSumExp,将此作为处理非监督数据的框架。LogSumExp的导数为模型各个类型赋予不同的权重,以实现无类型标记时对学习的引导。2.将凸分析的对偶原理用于正则优化问题导出归约原理。归约原理将只含有一个优化元的正则化优化问题等价于包含多个变元的对偶问题,并且建立两个问题优化元间的关系式。基于归约原理,我们认识到模型中与序列有关的变元对应着只含一个参数优化问题的梯度,从而与大量序列变元有关的优化问题变成少量变元的优化问题。归约原理是建立概率图模型正则优化问题视图的基础,它也导出了任务"定义正则优化问题,以使得数据项梯度与给定概率图模型一致"。3.共辄函数定义对应一个优化问题,我们建立从共轭函数输入(对应优化问题参数)到优化问题解的映射。基于Fenchel不等式和共轭双射性,在函数严格凸时,我们得到从优化问题参数到优化问题极值的双射视图,在其中发挥作用的是原函数和共轭函数的梯度。因为梯度在关联参数和极值的重要作用,我们将这个性质称为梯度对偶原理。梯度对偶是我们定义正则优化问题正则项的理论基础。4.概率空间及其对偶空间。概率单纯形是概率图中的重要部件,在正则优化处理中需要处理参数和梯度(互为梯度对偶关系)的变换。通过对函数定义域结构的分析,使不能直接使用的梯度对偶原理在共轭函数<P∈概率单纯形.log(P)>和LogSumExp上成立,并将这两个共轭函数作为度量建立概率空间及其对偶空间。此外,我们通过LDA正则优化问题在线解法的分析,导出了概率空间的加和代数系统。