基于连续HMMs与逆狄利克雷混合模型的数据建模方法

来源 :华侨大学 | 被引量 : 0次 | 上传用户:cheerlucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,自然产生的正数据序列呈现维度高、噪声多、类别难以区分等特点。为了对正数据序列的复杂问题提供解决方案,本论文提出了基于连续HMMs(Hidden Markov Models,HMMs)与逆狄利克雷(Inverted Dirichlet)混合模型的数据建模方法。HMMs长期以来一直是最常用时间序列数据建模概率图模型之一。它已广泛应用于人脸识别、异常检测、医学基因检测等领域。在本文中,我们基于理论和实验提出了连续HMMs的一系列变体,用于对正序列数据进行无监督学习。本论文提出以下三种方法:(1)基于逆狄利克雷混合模型的连续HMMs相比于常见的高斯分布,逆狄利克雷分布适用于多个对称模式和非对称模式的数据,对于正数据(positive data)的拟合比高斯分布更好,从而提供更加灵活和强大的建模能力。因此,我们提出基于逆狄利克雷混合模型的连续HMMs,对正数据序列进行建模分析。这一部分中,我们会利用变分贝叶斯(variational Bayes)方法来推导逆狄利克雷HMMs的模型参数,并利用模拟实验和网络入侵检测应用来验证模型的性能。(2)加入特征选择的广义逆狄利克雷混合模型的连续HMMs对于一些连续正数据序列的无监督学习,大多数模型没有考虑到数据特征的重要性或相关性。实际上,在无监督聚类中加入特征选择是非常有意义的研究。加入特征选择(feature selection)的模型在估算参数的同时可以对特征重要度进行评估。我们提出在基于广义逆狄利克雷混合模型的连续HMMs的基础上加入特征选择,从而构成一个整体的模型框架。除了实现对模型的参数估算之外,算法还能对数据特征的相关度做出评估。在这里,我们同样使用变分贝叶斯的学习算法来学习模型,并利用模拟实验和人体动作识别应用来验证模型的性能。(3)基于狄利克雷过程的无限连续HMMs经典的连续HMMs具有局限性,例如它需要提前设定数据所属的隐状态的数量。在面对未知状态数或类别数的正数据时,有限的HMMs不能很好地解决问题。因此,我们将对有限HMMs进行扩展,提出基于狄里克雷过程(Dirichlet Process)的含有无限多个隐状态的连续HMMs,该模型不需要人为提前设置状态数。在构建模型的同时,可以对状态数进行估计。事实上,基于狄里克雷过程的无限连续HMMs是一种非参数贝叶斯模型,可对未知状态数或类别数的正数据进行无监督学习。另外,对于模型本身对应的发射密度,我们依旧采用逆狄利克雷混合分布。为了构建狄里克雷过程的框架,我们采用了变分推断的方法来估计模型,并利用模拟实验和大脑区域分析应用来验证模型的性能。本文提出以上的三种方法在合成数据集以及KDD CUP 1999、MSR Action3D、f MRI等公开数据集上进行了实验。实验结果能够表明,对比其他同类的算法,本文提出的三种方法均可以取得良好的结果。
其他文献
安全有效可共享的电子医疗病历系统是整个社会急需的,如果把区块链技术和电子医疗病历相结合就可以解决电子病历存在的共享困难、数据丢失、容易被篡改等关键问题,从而保证患者数据的安全性和隐私性。然而基于区块链技术的电子医疗病历对于系统中的执行效率有较高的要求,因此要想将此电子病历实际应用到生活当中则需要研究如何提高共识系统的共识效率。共识机制作为区块链技术的核心,整个共识系统的效率则取决于共识机制。但是现
学位
数据聚类是计算机视觉、数据挖掘、信息检索和模式识别等领域的基本无监督学习任务。为了更好地拟合非高斯数据尤其是正数据向量,并有效解决有限高斯混合模型的参数估计和模型选择困难的问题,本研究将基于逆贝塔刘维尔(Inverted Beta-Liouville,IBL)混合模型进行建模方法分析。首先,提出了一种具有Dirichlet复合多项式先验的有限IBL混合模型。在模型中,本文假设上下文混合比例服从Di
学位
随着互联网的飞速发展,微博、脸书(Facebook)等网络媒体平台已经成为反映社会舆情的重要载体。国内外网络舆情事件频发,网民发布、参与扩散(主要指转发)的信息不仅反映了网民对社会的态度和诉求,而且影响着舆论的发展。分析事件的传播趋势、预测事件的扩散过程对于维护社会安全稳定具有重要意义。已有的相关研究分析不够细致且不够深入,主要存在以下两个方面的问题:(1)采用仿真的离散数据进行传播扩散分析,与真
学位
视频中的人体行为识别是计算机视觉中一项非常重要的任务,其在人机交互、智能视频监控、康复医疗等领域发挥着重要的作用。随着深度学习的崛起,大量基于深度学习的方法应用于行为识别领域,并取得了不错的效果。但是现实生活中场景更加复杂,如何对数据进行有效处理并提取具有判别力的特征仍然是目前行为识别领域尚未完全解决的问题。因此,本文主要从增强特征学习的完整性和判别性两个方面展开深入的研究:1)提出了基于一致性约
学位
随着制造业市场结构由以产品为中心转向以产品服务为中心,消费者市场环境、企业竞争模式等发生变化。导致大量的企业在实际进行服务化转型中遇到了诸多挑战。如,(1)以产品服务为中心考虑产品服务价值水平如何影响产品服务供应链上决策双方定价、收益等问题;(2)在市场消费者影响下,产品服务供应链上决策双方的相关决策如何受决策者风险规避因素的影响;(3)伴随日趋网络化的发展趋势,产品服务供应链网络各成员收益如何受
学位
随着信息时代的高速发展,如何在用户和信息之间建立一种有效且直接的联系变得尤为重要。信息推荐应运而生,它着力解决信息迷航、信息超载等问题。目前,传统信息推荐算法主要存在以下三个方面的问题:(1)浅层模型挖掘不出项目的隐层特征,也无法对用户特征进行细致深度的刻画;(2)社交网络中蕴含了大量复杂的行为关系信息,作为网络用户特征中重要的部分之一却常常被忽视;(3)数据稀疏和冷启动问题在一定程度上影响了推荐
学位
视觉是人类感知和理解外界信息的重要方式,计算机视觉是对建立人类视觉观察系统与机器进行交流的桥梁,用于辅助工业化社会的生产生活。利用计算机对视频序列的目标跟踪是当前计算机视觉方向的一个重要研究内容,具体表现形式为在多帧连续的图像序列中估计出当前目标的具体位置,并以此确定出目标的运动轨迹信息,实现对有效目标的运动行为分析。经过诸多优秀专家学者们在目标跟踪领域的大量研究,目标跟踪的相关技术已经取得了长足
学位
随着社会发展和科学技术水平的提高,现实生活中的优化问题规模越来越庞大,搜索空间越来越复杂,求解难度也越来越大。这就使得传统的数学优化方法,如牛顿法、最速下降法、共轭梯度、凸优化等,无法对其进行有效求解。对于此类问题,进化算法凭借着操作简单、高鲁棒性、搜索力强、且不依赖求解问题信息的优点成为了一种高效的解决方案,并已被成功应用于求解许多复杂的优化问题。尽管进化算法发展至今已获得了极大的成功,但是,目
学位
细粒度图像识别专注于同一大类的不同子类的图像目标。随着图像识别技术在各个领域落地,对物体类别精细划分的需求日益凸显,细粒度图像识别逐渐成为研究热点。针对细粒度图像识别中类间差异小类内差异大的难点,目前的研究工作主要关注如何学习图像的判别特征,主流的研究方向包括定位判别区域、学习细粒度特征和数据增强策略。本文从定位判别区域和数据增强策略两个方向开展了以下研究:1)提出了一种基于通道注意力机制和区域增
学位
随着海量视频数据的爆发和人工智能技术的发展,视频描述任务逐渐成为研究热点。视频描述技术在生活中有着广泛的应用前景,如体育视频解说,电商商品描述,视频标题生成等等。在视频描述领域中,基于编解码结构的序列学习以及融合注意力及属性等信息的视频描述方法层出不穷。但这些方法存在两个严重的问题:一是视频时序建模表达力不足;二是忽视了视觉与语言的对齐。本文围绕上述两个问题,开展了以下研究:(1)提出一种基于多特
学位