论文部分内容阅读
在大数据时代,随着各行业数据源的爆发式增长以及历史数据的大规模累积,能够更加充分地利用信息量进而把握事物变化规律的时间序列数据分析的重要性与日俱增。而其中最基础也最具决定性的任务之一就是时间序列间的相似性度量。凭借能够有效处理时间畸变的优势,动态时间规整长久以来都是最受广泛认可的时间序列相似性度量方法,但其固有的可能导致病态对应的缺陷也一直未能得到解决。本文围绕动态时间规整,跳脱传统的思路,从新的全局性规整路径约束和特征的角度对其进行一系列的改良。近年来,大规模遥感图像时间序列分析各方面的条件也逐渐成熟,而这类数据因为其外在与内在时间畸变的广泛存在,成为了动态时间规整应用的绝佳舞台,因此本文也对基于动态时间规整的遥感图像时间序列聚类进行了深入的研究。本文主要的研究内容和创新点包括: (1)提出了全局性的对动态时间规整路径长度的约束并给出了相应的解法。传统的解决动态时间规整病态对应问题的思路都是对规整路径做出局部性的约束,但是局部性的约束往往过于僵硬,实践中可能会错失正确的对应关系。基于对问题的重新观察,我们发现病态对应往往会导致规整路径的长度异常的长,因此我们试图通过限制规整路径的长度来抑制病态对应。这是一种全局性的约束,规整路径局部的行为依旧保持了一定的灵活性。实验结果验证了这种新的约束条件在大多数数据集上比传统方法更能够提高动态时间规整的分类精度。 (2)提出了基于局部特征的动态时间规整框架。经典的动态时间规整以原始观测值作为特征,而原始观测值对噪声比较敏感,而且忽略了许多潜在的信息,这被认为可能是造成病态对应的原因之一。因此我们提出了用任意的局部特征代替原始观测值来进行动态时间规整计算框架。在仅以局部均值和最值等初级统计特征为例的实验中,新的计算框架在多数数据集上就已经取得了比现有方法更高的分类精度。 (3)提出了基于逐点形态上下文的动态时间规整。时间序列既是一列数值,又可以被视为一道形状,传统的方法并没有从形态的角度比较时间序列的相似性。而我们决定打破数与形的界限,从形态的角度,采用一种叫做形态上下文的富形状描述子来作为时间序列的局部特征,借助基于局部特征的动态时间规整框架,来度量时间序列间相似性。实验中这种基于形态特征的方法比传统方法在大多数数据集上都取得了更高的分类精度。 (4)提出了基于距离度量学习的时间序列相似性度量框架。在一些数据集上,时间畸变并不是主要矛盾,这时基于动态时间规整的一系列方法的有效性就会被大大削弱,在这种情况下,我们尝试探索动态时间规整之外的新方向。我们将基于马氏距离和边信息的距离度量学习框架迁移到了时间序列之上,从而利用马氏距离对数据的重投影,提高数据在投影空间的可分性。实验表明新方法在大多数时间畸变可以被忽略的数据集上取得了比动态时间规整更高的分类精度。 (5)提出了基于动态时间规整的遥感图像时间序列聚类流程框架。遥感图像时间序列的一大特点就是时间畸变的来源十分广泛,既有外在的也有内在的。因此我们希望在最大程度上利用动态时间规整处理时间畸变的优势,进而提出了一套围绕动态时间规整的聚类流程框架,主要包括时间序列的构造与预处理,相似性度量,聚类算法与平均序列算法等部分。实验中对十几年间的真实数据进行了聚类,与传统的基于欧式距离的方法相比,新框架取得了更高的聚类精度。 (6)首次将近邻传播引入到遥感图像时间序列聚类。在面对遥感图像时间序列时,各种传统聚类算法的缺点变得越来越不可接受,因此我们引入了在理论上更加适任的近邻传播聚类算法,并对其可能导致的内存瓶颈提供了渐进式近邻传播的解决方案。在对来自不同传感器的数据集进行的聚类实验中,近邻传播与传统的聚类算法相比表现出了更高的聚类精度和计算效率。