不确定时间序列的相似性匹配问题研究

被引量 : 6次 | 上传用户:stevenyhiker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列,就是按照时间先后顺序排列的记录序列。相似性匹配是时间序列的聚类、异常检测、模式发现等任务的基础操作之一。目前对时间序列相似性匹配的研究主要针对确定性数据,随着物联网、隐私保护等技术的发展,不确定时间序列将大量涌现,时间序列的相似性匹配技术面临新的挑战。在不确定时间序列的情况下,两条序列之间的距离也是不确定的,所以无法直接利用确定性时间序列的相似性匹配方法。为了解决不确定时间序列相似性匹配问题,我们建立了一种描述不确定时间序列的数据模型,在该模型下,不确定时间序列在每一时刻的数据点均由一个取样点(sample observations)的集合组成,并且每个取样点出现的概率相等,即服从离散型均匀分布;并且,时间序列中不同时刻的点相对独立。在此模型下,两条不确定时间序列之间的真实距离是由大量的可能距离(以一定的概率值出现)组成的,并且这些可能距离的数量为指数大小。所以,直接计算所有的可能距离的效率将非常低。因此,在所提出模型的基础上,本文提出了两种不确定时间序列相似性匹配算法:α-PRQ(均值法)和k-PRQ(聚类法)。(1)α-PRQ根据查询序列和数据库中所存储的时序数据是否为确定性数据,将不确定时间序列相似性查询分为三种不同的类型;然后,对于每种类型,通过均值法(averaging method)从不确定序列中提取出一条确定性序列来代表原序列,然后,采取确定性时间序列相似性匹配方法进行查询。(2)k-PRQ此算法主要通过两个步骤进行剪枝以降低计算复杂性:1)通过聚类减小取样大小(sample size),以聚类后的每一个簇为单位计算距离,从而大大降低了计算复杂度。2)通过预先计算出小于给定阈值ε的距离个数的上界与下界,就能够得到这些距离出现概率的上下界,从而通过概率的上下界过滤掉不必要的计算,减少计算量。实验表明,我们提出的两个不确定时间序列相似性匹配算法具有较好的性能和准确性。
其他文献
随着经济全球化的发展,作为新兴产业的现代物流业极具发展潜力,其发展水平已成为衡量一个国家和地区综合竞争力的重要指标。本文运用波特产业竞争力"钻石模型",深入分析了浙
公司治理问题具有很强的现实性,是全球的一个共性问题,而作为一种特殊的公司,银行的治理受到监管部门和社会各界的广泛关注。银行合规治理是银行治理的前沿性问题,它一方面关
本文通过构建基于国际贸易的江苏沿海港口物流竞争力评价指标系统,首先采用特尔斐法确定了各级评价指标的权重,然后运用模糊综合评价法分别对江苏沿海的连云港、盐城港和南通
在全球经济的发展浪潮中,于各行各业中均可寻觅见分工的影子,研究分工有利于我们探索小资金门店的经营策略,有利于我们分析区域经济的发展战略,有利于我们寻找国内经济结构的调整
从本期开始,本刊将分四期连载《中国民航企业竞争力研究》。文章第一部分介绍中国民航和世界民航发展现状及前景“、十一五”期间中国民航发展环境分析(PEST分析);第二部分详
语音、语法、词汇是构成语言的三大要素。而词汇是语音和语法的载体,是构成语言大厦的建筑材料。当前,高中阶段的词汇教学一直是“耗时多,而收效低”;高中生普遍感到词汇的学
改革开放30多年以来,我国经济取得了举世瞩目的持续高速增长,GDP年均增长率在9.7%以上,比世界同期发达国家的增长率高出近3倍,经济总量已经跃居世界第三。但是,在我国宏观经
世界航空运输业近年来的发展最突出地表现为自由化的趋势。自由化对世界各国的国际和国内的航空市场都产生了积极作用,同时也对政府的作用和企业经营带来了一定的挑战。本文
本文根据财务风险相关理论对家电行业特点、行业风险进行分析,选取沪深两市2008~2010年家电行业上市公司的财务信息数据为基础数据,以Z计分模型为财务风险预警基础模型,并以20
《中华人民共和国侵权责任法》已与2010年7月1日生效,其中第十七条规定:“因同一侵权行为造成多人死亡的,可以以相同数额确定死亡赔偿金。”应当说,该条首次将一揽子赔偿方式