面向时间序列相似性的序列模式挖掘及应用

被引量 : 0次 | 上传用户:pan2009pan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据分析技术已广泛应用于交通、金融、环境、医学等领域的数据挖掘中,其重要性与日俱增。传统时间序列数据分析技术大多侧重于对整段时间序列建立各种数学模型,而忽视了特定区间的时间序列对结果分析的重要性;同时,传统时间序列数据分析技术研究对象主要是单变量时间序列,未考虑受多种因素影响的多变量时间序列;此外,时间序列模式挖掘的研究方法是直接对大量历史时间序列进行符号化,存在针对性不强、速度较慢等问题。针对上述问题,本文在深入分析传统时间序列相似性搜索算法和经典时间序列模式挖掘算法的基础上,在单变量时间序列方面,研究了各时间段序列的权值分配算法以及加权单变量时间序列相似性搜索算法;在多变量时间序列方面,研究了不同变量时间序列的权值分配算法以及加权多变量时间序列的相似性搜索算法;在此基础上对时间序列模式挖掘过程进行了优化;此外,还以沪深A股的实际交易价格时间序列为验证对象,对本文的研究成果进行了实验验证。主要工作及创新点如下:(1)提出了单变量时间序列各时间段序列的权值分配算法和加权单变量时间序列相似性搜索算法。针对各个时间序列区间具有不同特性且对相似性搜索结果的有效性影响程度各异,借鉴资讯检索中词条相关性算法,提出了各时间序列区间的权值分配算法,并将权值引入余弦相似性度量方法进行加权单变量时间序列相似性搜索。实验结果表明,加权单变量时间序列相似性搜索算法的准确性更高;(2)提出了多变量时间序列各变量的权值分配算法和加权多变量时间序列相似性搜索算法。针对单变量时间序列相似性搜索算法仅考虑单个影响因素的不足,借鉴多属性决策问题的相对熵赋权法,提出了一种适合于多变量时间序列相似性搜索的变量权值分配算法及相应的多变量时间序列相似性搜索算法。实验结果表明,加权多变量时间序列相似性搜索算法所搜索出的时间序列其后续序列与理想股价走势序列相似性更高;(3)设计了基于加权时间序列相似性搜索的时间序列模式挖掘优化方案。针对已有的时间序列模式挖掘思路针对性差、时间消耗大等缺点,融合了加权多变量时间序列相似性搜索算法和差分符号化方法对时间序列模式挖掘预处理过程进行优化,使得进行下一步序列模式挖掘的符号集针对性更强、维度更低。实验结果表明,该方案找出的最大频繁项可直接用于历史时间序列符号比对,大幅提高了时间序列模式挖掘的效率,其挖掘结果的准确性也进一步提升。
其他文献
配比原则作为会计要素确认要求,其最主要的用途在于对利润的确定,目前在会计主体的经济活动中得到了广泛应用。笔者尝试从企业会计事务中配比原则具体应用情况对其应用优势及
<正> 戏曲,是我国所独有的民族歌舞剧。全国剧种在三百个以上。这些剧种的唱腔色彩绚丽、风格多样。影响剧种风格的主要因素,一是语言,二是音调。除了一部分流传于全国的大剧
目的:本研究旨在评价前列地尔对急性非ST段抬高型心肌梗死(Non-ST Segment Elevation Myocardial Infarction,NSTEMI)行PCI术患者心肌微循环(Myocardial Microcirculation)的
如麦克卢汉所说"媒介即信息",我们身处信息爆炸的时代,背后必然是新媒介的驱动。本文基于信息传播视角,对信息产生的多种话语表达的可能性以及付费时代知识新媒介存在的必要
《农业保险条例》的实施为农业保险的发展指明了方向,也对农业保险的发展提出了要求。从农业保险自身的特点出发,针对农业保险的特殊之处,探讨农业保险的发展之路。通过细化
运用协整和误差修正模型,采用1978~2005年的年度经济数据对我国东、西部财政支农与农业经济增长关系进行实证检验。结果表明,财政农业支出与农业经济增长之间存在长期均衡关
随着我国城市化进程的高速推进,多、高层工业化住宅已成为建筑工程界的发展热点。对一种适用于高层大空间住宅的新型工业化建筑体系——斜撑增强型钢框架-剪力墙装配式住宅体
近日,上海的温室研究专家闰强刚从日本归来,带回了一个好消息:日本知名休闲园“神户花鸟园”,决定放弃从西欧国家进口温室装备,而改向上海订购3万m^2的大型温室。这将是上海高端玻
期刊
基于VWK模型对金融危机时期的四个新兴市场国家(泰国、韩国和印度1990~2007年以及墨西哥1993~2007年)日汇率数据进行非线性特征研究,分析结果表明:四国汇率的非线性信息准则