时间序列聚类方法研究

被引量 : 0次 | 上传用户:yancliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列(time series)挖掘工作是数据挖掘领域的重要研究分支,有非常大的应用价值。时间序列是一种重要的数据对象,在气象学、经济学、地理学以及金融学等许多领域都大量存在,对这些数据进行数据挖掘分析,可以找到事物变化以及发展的规律,并且能够为科学决策提供数学依据。近年来,随着数据库技术的快速发展,以及数据库管理系统的大量应用,产生的数据越来越多,如何分析、处理这些海量的时间序列数据,并从这些数据中发现有预知性的、有价值性的信息,引起了现在越来越多学者的重视和关注。由于现在大量时间序列具有短期内波动频繁、存在大量噪声干扰并且不稳定等的一些特点,直接在原时间序列上进行时间序列挖掘处理工作包括相似性查询、分类和聚类、模式识别等,不但占用存储空间大、计算效率低下,而且严重影响算法的准确性以及可靠性,不能得到一个满意的预期的结果。近期以来,时间序列的数据挖掘、知识发现、预测、相似性搜索等问题已经成为研究热点,主要研究工作包括降维、特征提取、相似性度量、聚类等。本文是通过对时间序列聚类的工作进行深入研究,开展了以下的研究工作。1.提出了一种基于DTW的符号化时间序列聚类算法,对降维后的不等长符号时间序列进行聚类,该算法首先对时间序列进行降维处理,提取时间序列的关键点,并对其进行符号化;其次利用DTW方法进行相似度计算;最后利用基于Normal矩阵的谱平分方法和FCM方法进行聚类分析;实验结果表明,将DTW方法应用在关键点提取之后的符号化时间序列上,聚类结果的准确率有较好的提高。2.改进了一种基于关键点的时间序列聚类算法。该算法基于关键点技术,提出了一种新的时间序列聚类方法。算法首先寻找时间序列的关键点,并将关键点序列进行等维处理后,采用简单的欧氏距离进行相似性计算,最后利用模糊C均值方法实现时间序列的聚类。实验结果表明,在时间序列聚类过程中,该方法不仅可以有效降低时间序列的维数,加快聚类的速度,而且可以得到理想的聚类结果。3.改进的符号化时间序列处理方法。该算法首先将关键点提取技术应用在符号化算法中对时间序列进行降维处理,然后利用本文提出的方法对非等长的时间序列进行局部等维处理,再符号化;最后采用不同的方法进行相似度对比计算。实验结果表明这种方法是简单而有效的,并且使非等长符号化时间序列的相似性度量及聚类方法得到了拓展。
其他文献
<正>痛风关节炎是人体嘌呤代谢紊乱导致血尿浓度增高,尿酸盐在关节腔或软组织沉积而致关节红、肿、热、痛的一种急性关节炎症[1]。在全世界范围内痛风关节炎发生率在不断增加
就业是人民群众赖以生存的重要途径,是经济发展的基本保障,关系到亿万家庭的切身利益,是促进社会和谐的重要基础。世界各国在陆续进入工业化时代以后积极探索有关就业方面的问题
目的观察耳穴熨烫配合手法按摩治疗失眠症临床疗效。方法采用耳穴按摩配合熨烫治疗28例失眠患者,3个疗程后评价疗效。结果痊愈6例,显效16例,有效5例,无效1例,总有效率96.4%。
随着我国铁路运输电气化的发展需要,重载高速电力机车得到了迅速的发展和应用,铁路行车安全也日益成为铁路系统中最为关注的问题。牵引变压器是重载电力机车最重要的设备之一
随着现代生活节奏不断加快,失眠症患者人群日渐增加,失眠症主要表现为睡眠时间、深度不足,不能消除疲劳,不能恢复脑力及体力。本组观察病例62例,治愈38例,有效13例,无效11例,
研究背景:肺癌(又名支气管肺癌),绝大部分起源于支气管上皮细胞,是最常见的原发性肺恶性肿瘤。近50余年来,肺癌的发病率和死亡率急剧上升,在全球癌症死亡原因中居第一位。肺癌
近年来,FDI大量的流入我国,许多学者就FDI流入的原因及FDI对我国经济的影响进行了大量的分析。本文就FDI流入我国的原因进行重新思考,试图从金融市场的不同角度来重新审视FDI。
<正>2019年10月30日至11月1日,来自奥地利、澳大利亚、加拿大、中国(包括香港)、德国、希腊、日本、南非、英国、新西兰、美国等十余个国家和地区的自然保护和生物多样性方面