基于稀疏逆协方差的多变量时间序列聚类研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:wxm2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据的挖掘是一个重要且成熟的研究主题,解决了很多现实问题。多变量时间序列(MTS)在众多领域应用广泛,如何对MTS准确高效地进行聚类已经成为一个热门的研究课题。相比较于单变量时间序列(UTS),因为高维度以及各变量之间复杂的依赖关系,并且适用于UTS的传统聚类方法也不能直接应用于MTS,使得MTS的研究具有更大的挑战性。同时,很多应用会产生大量事先未分割的时间序列数据。基于以上探索,本文对多变量时间序列聚类展开了研究,主要研究工作如下:(1)由于对于时间序列的研究大多集中在单变量时间序列上,且传统的基于距离的方法很难适用于多变量时间序列,我们提出了一种全新的基于模型的方法—基于稀疏逆协方差的Kullback-Leibler散度多变量时间序列聚类方法(KLDSICC)。该方法使用多变量高斯模型作为数据表示和簇原型,Kullback-Leibler散度作为距离度量。该方法包含两个阶段,首先将每个MTS转换成多变量高斯模型,并结合图形套索得到关键参数稀疏逆协方差;然后受到传统聚类方法K-Means原理启发,再利用多变量高斯模型之间的KL散度进行簇分配。与传统方法相比,KLD-SICC有效防止了过拟合现象并降低了时间复杂度。实验评估表明,相比于最新的MTS聚类方法,KLD-SICC具有更好的聚类性能。(2)为了同时对多变量时间序列进行分割和聚类,本文提出了基于自适应状态连续性的稀疏逆协方差多变量时间序列聚类方法(ASC-TICC)。此处,使用对数似然距离作为相似性度量,簇原型是具有稀疏逆协方差的多变量高斯模型。具体来说,引入状态连续性以使传统的高斯混合模型(GMM)适用于时间序列聚类。为了防止过度拟合,采用了交替方向乘子法(ADMM)来优化GMM的关键参数逆协方差。首先,基于相邻时间序列数据的距离相似性来计算自适应状态连续性。然后,将使用自适应状态连续性进行簇分配分配的动态规划算法作为E步,将求解稀疏逆协方差的交替方向乘子法作为M步。最后将E步和M步组合到一个期望最大化(EM)算法中,以进行聚类过程。在实验中,在两个数据集上验证了ASCSICC算法,结果证明了ASC-SICC算法的鲁棒性和良好的聚类性能。
其他文献
C–C键的位点和化学选择性裂解/活化以及官能团化一直是最具挑战性的研究方向之一。含过渡金属的中间体的β-C裂解为碳碳键的活化提供了潜在的有效方法。但是,由于反应中存在
随着高分子材料产品在电子、光学和医学等行业的广泛应用与需求。这些产品通常需要精度为微米和亚微米级的高分子零件,如何实现快速、可靠、可复现、高质量的制造是目前实现
为顺应资本市场改革发展的新要求,满足复杂经济背景下日益增加的信息需求,2016年12月财政部印发了新审计报告准则,其中最核心的内容是第1504号审计准则,要求上市公司披露关键审计事项,并采取分步骤实施方案。因此本文基于会计师事务所视角,从不同角度分析关键审计事项的具体经济后果。本文选取2016年——2018年披露关键审计事项的所有A股上市公司数据,通过文本分析法和Python方法得出关键审计事项的
机器人技术,尤其是移动机器人技术,已经开始在工业制造、军事、物流和室内服务领域得到越来越广泛的应用。在移动机器人的关键技术中,即时定位与地图构建SLAM(Simultaneous Localization and Mapping)和多传感器信息的融合至关重要,是移动机器人实现精确自主导航的基础。本文以Turtlebot2移动机器人为平台,配置了里程计和二维激光雷达等感知设备。首先对系统的运动模型和
随着计算机技术的快速发展,人们在努力使机器变得更加人性化,因此,本文研究如何让机器智能地生成有说服力的自然语言描述的问题,该描述既要传达产品信息,又要提供与用户需求相关的解释。这个问题可能会受益于当前大量关于端到端深度神经网络的研究工作。然而,深度神经网络的成功归功于海量训练数据的支撑,我们无法获取大规模的具有说服力的文本描述,因此,缺乏标记数据和主观判断对训练这样一个模型提出了严峻挑战。针对以上
国防工业、航空航天、汽车制造、半导体和微电子工业等领域发展迅速,超精密加工零件的数量和质量需求都急剧增长,尤其是对零件表面面形精度和粗糙度的要求与日俱增。相应地,
作为人脸识别、表情分析、人脸3D重构等重要任务的基础,人脸特征点定位课题受到了研究者的广泛关注并取得了巨大的进展,其中级联姿态回归算法在受控条件(例如,光照良好、无遮
在机器人领域中,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人研究领域的热点与难点问题,引起了许多研究者的关注。本文在研究国内外SLAM算法的基础上,对SLAM算法进行了深入的分析和研究,并对算法中所存在的不足作出了一定改进,提高了机器人定位和地图构建的估计精度及执行效率。具体的研究内容如下:首先,阐述了SLAM问题的基本模型并对
益贫式增长问题的核心在于研究增长及分配的减贫机制,同时促使贫困群体参与增长过程并共享发展成果,其最终的立足点是减贫政策。本文从益贫式增长的内涵和测度方法出发,从全国和省域层面对2005-2016年城镇益贫式增长的现状及时空分异特征进行综合测评。从理论层面上探究了收入分配政策(初次分配、再分配)、区位政策、经济增长、地方投入产出和人力资源禀赋对益贫式增长影响的分析框架,并运用面板数据模型进行实证检验
本研究以科尔沁沙地为研究区域,榆树疏林为研究对象,采用多智能体思想,以NetLogo为平台,以内蒙古乌兰敖都试验站的野外观测数据作为模型准确性验证的依据,实现榆树空间格局形成过程以及其动态变化的模拟,探究榆树空间格局形成过程中风力、植被盖度、土壤含水量、竞争等影响条件对榆树疏林的影响。主要研究结果如下:(1)风力驱动是影响种子扩散的重要影响因素,种子扩散数量在各个方向上呈现先增加后减小的单峰分布的