基于高斯混合模型的动态正则学习和变量选择研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:tobay1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高斯混合模型作为一种很强的统计学工具已经被广泛应用到数据分析和信息处理领域。由于在数据建模上的灵活性和适应性,高斯混合模型的建模和参数学习已成为统计学习中的一个重要方向,并建立了多种学习理论与算法。在实际应用中,高斯混合模型常被用于进行聚类分析、决策分析、图像处理、生存分析等。   如果高斯混合模型的分量个数是已知的,有很多经典的算法可以用来进行参数估计,这其中包括著名的EM算法。但是在实际应用中,这个关键的信息一般是无法获得的,而要通过对样本数据结构的学习得到。而这种学习又同模型的参数估计耦合在一起,使得整个混合建模过程变得异常复杂和困难。由于混合模型的分量个数反映了其规模和复杂度,因此分量个数的选择问题被称为模型选择问题。本文针对高斯混合模型的模型选择与参数估计,提出了三种正则化学习方法,这三种方法都能自动探测数据中的真实分量个数,并且得到模型参数的极大似然估计。   这三种方法的前两种都建立在贝叶斯阴阳(BYY)和谐学习的的理论框架下。BYY和谐学习的优点是能够在参数学习的过程中实现模型选择,但其得到的参数估计不是一致的。本文中,我们将似然学习看成是BYY和谐学习加上一个熵正则项的形式,通过动态调整正则化参数,我们的算法能先完成模型选择然后给出一致的极大似然估计。这两种方法的区别在于采用的和谐学习的结构不同(后向结构和双向结构)和正则化参数的演化过程不同。第一种方法中正则化参数的演化路径是给定的。为了提高算法的效率,在提出第二种方法的时候,通过分析学习过程中参数变化的特征,我们设计了自适应的正则化参数演化过程。第三种方法从极大似然学习的角度出发,引入后验熵作为正则项,这是在解决过拟合问题常用的方法。通过动态调整正则化参数,该算法同样能实现模型选择并得到一致的参数估计值。大量的模拟和实际数据实验表明,文中所提出的三种方法都能自适应的决定高斯混合模型的模型选择问题,而且选择结果稳定。通过跟别的模型选择算法做比较得出,动态调整正则化参数使模型收敛到极大似然估计的思想的确能提高参数的估计精度。   有限混合模型学习的另外一个重要问题是变量选择。随着科学技术的快速发展和计算机存储能力的快速提高,从事应用学科的研究者们经常会碰到包含大量预测变量(variable)的数据集。在解决一些实际问题的时候,这些预测变量并不都与响应变量(response variable)有关,因此,筛选出真正起作用的预测变量不仅能帮助研究者深入理解预测变量与响应变量之间的关系,给出合理的分析和预测,还能节约研究成本。本文的最后一个章讨论如何在和谐学习的框架下同时做模型选择和变量选择。通过特殊的关于“相关变量”的定义,让每一个变量对应一个概率值,用这个概率值衡量某个变量是相关变量的可能性。在这个定义的基础上,我们设计了一个基于BYY学习框架的两步优化算法来估计模型参数。模拟实验证明了我们的算法在变量选择问题上是可行的和有效的。
其他文献
现在我国的课程改革正在如火如荼的进行,在全新的教学理念要求下,对现阶段我国小学数学课堂的教育也提出了更高的要求.要求小学数学在进行教学的过程中不仅要考虑学科自身的
2003年7月11日一大早,天上就淅淅沥沥地下起了小雨,萨尔乔克乡水管站站长奥汗拜看着乌云翻滚的天空,凭着他多年的经验,判定这雨一下就停不下来,山上有可能暴发洪水,他担心苏
非线性泛函分析作为数学中一个既有深刻理论又有广泛应用的研究领域,它以自然界中出现的非线性问题为背景,建立了处理非线性问题的若干一般性理论和方法.近年来,非线性微分方程
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
2004年1月16日(农历腊月25日),四川省南江县召开千人电视电话会议,部署在全县开展“争当人民群众好儿女”活动。春节期间,县委书记青理东没有回老家过年,却一头扎进秦巴山区
研究整体域K上椭圆E的supersingular素理想的分布是椭圆曲线算术理论的一个重要课题.对于K是数域的情形,见Deurint[2],S.Lang和H.Trotter[6],J.P.Serre[7],N.D.Elkies[3,4].
我们分四部分介绍.第一部分为Obata定理及其推广,第二部分为warped乘积空间中的自相似解以及加权的Minkowski不等式,第三部分为Bakry-Emery瑞奇曲率的单调性公式,第四部分为梯度
网络化多个体系统具有节约成本以及在复杂环境下适应能力强的优点,因而在很多方面得到了应用。网络化多个体系统包括很多方面,比如分布式协调控制、凸优化等等。其中尤其以一
党的十六大明确指出:“我们党的最大政治优势是密切联系群众,党执政后的最大危险是脱离群众。”脱离群众的突出表现是形式主义、官僚主义和腐败现象。这三股歪风相互影响,相