论文部分内容阅读
时间序列数据分析技术已广泛应用于交通、金融、环境、医学等领域的数据挖掘中,其重要性与日俱增。传统时间序列数据分析技术大多侧重于对整段时间序列建立各种数学模型,而忽视了特定区间的时间序列对结果分析的重要性;同时,传统时间序列数据分析技术研究对象主要是单变量时间序列,未考虑受多种因素影响的多变量时间序列;此外,时间序列模式挖掘的研究方法是直接对大量历史时间序列进行符号化,存在针对性不强、速度较慢等问题。针对上述问题,本文在深入分析传统时间序列相似性搜索算法和经典时间序列模式挖掘算法的基础上,在单变量时间序列方面,研究了各时间段序列的权值分配算法以及加权单变量时间序列相似性搜索算法;在多变量时间序列方面,研究了不同变量时间序列的权值分配算法以及加权多变量时间序列的相似性搜索算法;在此基础上对时间序列模式挖掘过程进行了优化;此外,还以沪深A股的实际交易价格时间序列为验证对象,对本文的研究成果进行了实验验证。主要工作及创新点如下:(1)提出了单变量时间序列各时间段序列的权值分配算法和加权单变量时间序列相似性搜索算法。针对各个时间序列区间具有不同特性且对相似性搜索结果的有效性影响程度各异,借鉴资讯检索中词条相关性算法,提出了各时间序列区间的权值分配算法,并将权值引入余弦相似性度量方法进行加权单变量时间序列相似性搜索。实验结果表明,加权单变量时间序列相似性搜索算法的准确性更高;(2)提出了多变量时间序列各变量的权值分配算法和加权多变量时间序列相似性搜索算法。针对单变量时间序列相似性搜索算法仅考虑单个影响因素的不足,借鉴多属性决策问题的相对熵赋权法,提出了一种适合于多变量时间序列相似性搜索的变量权值分配算法及相应的多变量时间序列相似性搜索算法。实验结果表明,加权多变量时间序列相似性搜索算法所搜索出的时间序列其后续序列与理想股价走势序列相似性更高;(3)设计了基于加权时间序列相似性搜索的时间序列模式挖掘优化方案。针对已有的时间序列模式挖掘思路针对性差、时间消耗大等缺点,融合了加权多变量时间序列相似性搜索算法和差分符号化方法对时间序列模式挖掘预处理过程进行优化,使得进行下一步序列模式挖掘的符号集针对性更强、维度更低。实验结果表明,该方案找出的最大频繁项可直接用于历史时间序列符号比对,大幅提高了时间序列模式挖掘的效率,其挖掘结果的准确性也进一步提升。