基于隐马尔可夫模型的时间序列聚类的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dahaneralpha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐马尔可夫模型(Hidden Markov Model,HMM)是一种概率模型,它假定观测序列是由包含若干隐状态的马尔可夫过程产生的。HMM在语音、手写体、运动轨迹识别和生物信息学等领域有着广泛的应用。基于该模型的时间序列数据聚类算法有两个显著的优点:1)适用于不等序列长度甚至缺失某一时刻观测值的时间序列。2)能够利用时间序列隐含的属性(马尔可夫性)来提高聚类精度。近年来,基于HMM的聚类算法的研究大部分是基于实际应用,而对其准确性和健壮性的研究较有限。本文提出一种基于概率模型的聚类算法——通过计算时间序列在不同HMM参数下的后验概率分布的Kullback-LeiblerDivergence(KLD)来构建相似度矩阵,并将该矩阵用作谱聚类算法的输入。与大部分现有的基于HMM的聚类算法不同,本文采用KLD来度量时间序列对之间的相似度。KLD作用于整个模型参数空间,更充分地利用了概率模型中的信息。在人工和实际数据集上的实验结果表明,该算法在同等条件下相比基于其他距离度量(如互匹配值)的算法具有更高的聚类精度。另一方面,谱聚类算法通过特征向量分解能有效去除时间序列数据中噪声的影响,该算法相比传统聚类算法(如K-Means),在加入内源性噪声和外源性噪声的人工数据上表现出更好的健壮性。本文的主要贡献包括:(1)研究了距离度量函数以及特征向量分解对聚类精度的影响。以往基于HMM的算法大部分采用互匹配值、BP距离等来度量时间序列间的距离,这些度量函数虽然具有一定的合理性,但是它们只利用了特定时间序列对之间的概率信息,而没有考虑全局概率空间。这种度量的局部性会导致最终聚类准确度的降低。另外,当附加在时间序列数据上的噪声等级上升时,传统的聚类算法,如K-Means、层次聚类等的准确性将明显下降。本文通过引入KLD和谱聚类有效解决了上述两个问题。(2)研究了隐状态数对聚类精度的影响。在HMM的应用中,隐状态数通常是预先设定的。虽然对于某些马尔可夫过程,隐状态有明确的意义(如语音识别中通常认为隐状态表示音节),但是对于更多的时间序列数据,很难赋予隐状态物理意义。本文对不同隐状态数目下的聚类精度做了研究,发现聚类精度随隐状态数不单调地变化,当模型过度拟合时,聚类精度反而会下降。并且,模型的训练时间将随隐状态数的增加而平方级增加。(3)研究了学习聚类数目的方法。通常聚类的类别数是预先设定的。但是在实际应用中,数据集的类别数往往无法预知,这就需要一种衡量聚类质量的标准来选出最优聚类数。本文采用α值来衡量聚类质量,这种度量不仅能使类内相似度最大,而且可以防止极少数样本点划分为一类的现象。实验结果表明,这种度量方法能找到正确的聚类数。
其他文献
本文首先介绍了可扩展矢量图形SVG和医学数字影像和通讯的标准DICOM,并分析了它们的技术内涵以及对图形图像的不同存储方式。在此基础上,提出了在医学存档和通讯系统(PACS)中引
图像压缩编码技术是现代多媒体及通信领域中的关键技术之一,目前已出现了多种压缩技术,并且制定了相应的国际标准.小波分析是近年来兴起的一种新的信号分析工具,因其对非平稳
随着信息技术的不断发展,Web上的信息资源正在以前所未有的速度增长。面对Web这个巨大的知识海洋,用户在寻找自己所需要的信息时往往显得束手无策。搜索引擎由于其所具有的方便
该文探讨了在全球网化和Internet飞速发展的今天,公用事业单位应如何利用新的Internet和网络技术,与传统的软件产业相结合,找到适合自己行业特点和计算机管理系统,以提高自身
在该文中,我们提出了一个针对IP网络的基于Web的管理模型--FD_WNMS.这个系统采用Java开发,用推模型实现了常规管理(例如长时间的网络监测和数据收集),用拉模型实现了特别管理(例
随着Internet应用的日益普及,企业、政府、学校等机构纷纷上网,陆续推出电子商务、电子政府、远程教育等网络服务,极大地丰富和方便了人们的生产生活。然而Internet并不是完美的
该文提出了CORBA性能优化的整体框架.我们首先讨论了系统级的CORBA性能优化,为了减少优先级倒置的问题,我们详尽地分析了ORB的连接和并发体系结构;同时,我们也简要讨论了其它
Web服务作为一种新型的分布式计算模式,以其自包含、良好的封装性、松散耦合、基于标准、高度可集成能力等优点成为当今工业界和学术界的关注热点。随着Web服务技术的快速发展
该文研究了面向超大规模集成(VLSI)数字系统的低成本容错结构及其在线测试技术.它包含如下内容:第一,在N为奇数的差错可定位NMR结构的基础上,提出了N为偶数的相应差错可定位NMR
该文首先对IDEFO功能建模方法进行了剖析,介绍了它的发展背景、基本层次结构、基本图形元素、IDEFO图表内容,ICOM编码规则以及它的建模方法.在分析了IDEFO方法的基础上,该文