时间序列时序关联规则挖掘研究

被引量 : 0次 | 上传用户:z992070002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列的时序关联规则指时间序列局部变化趋势之间的具有时间约束的关联关系,这些局部变化趋势发生本身具有时间先后顺序,因此这种关联关系就体现出时序性。时间序列的数据密集性、随机波动性和数据海量性决定了只有通过数据挖掘方法才能获取隐含的时序关联规则。时间序列时序关联规则挖掘是一个系统工程,分为时间序列预处理、时间序列压缩、时间序列模式相似性度量、时间序列时序关联规则获取、解释和评价等步骤。目前关于各步骤挖掘方法的研究还不够完善,主要表现在以下方面:(1)在孤立点噪声数据的识别中,基于统计学识别法很难获得样本的分布参数,基于小波变换识别法改变了原始时间序列的真实性,基于似然比识别法的计算量较大;(2)在经典时间序列时序关联规则挖掘中,以给定长度和滑动步长的滑动窗口把时间序列离散成模式序列,然后获取频繁模式,最后生成强时序关联规则。由于滑动窗口的长度和滑动步长是由人为给定,这样时间序列的压缩结果具有很强的人为性,挖掘结果也就具有很强的不确定性;(3)时间序列模式相似性的度量是获取模式序列中频繁模式的基础,决定着时序关联规则获取。目前,元模式单调距离和元模式向量距离中对元模式表示都存在缺陷,所以元模式相似性的度量存在一定问题。而且,现有度量序列模式相似性的方法不能用距离法度量不同长度的两个序列模式的相似性。时间序列时序关联规则具有很强的实用价值,但正如上述,目前挖掘方法却不完善。因此,本文的研究重点是时间序列时序关联规则挖掘方法的改进和完善,提出理论模型与实证分析,力求从时间序列中获取更多可靠的时序关联规则,从而为决策者提供更好的决策帮助。本文以挖掘步骤为主线展开论述,共分八章,每章的结构安排为:首先综述国内外对本步骤所涉及的理论和研究现状,其次分析研究中存在的问题,然后提出相应的改进方法,并用实证进行分析和论证。文章主要内容包括:(1)时间序列预处理时间序列的预处理是时间序列时序关联规则挖掘的第一步:怎样清洗时间序列中的噪声数据。这部分首先对时间序列的噪声数据进行界定,其次综述已有时间序列孤立点噪声数据的识别方法,并且分析这些方法的优缺点,最后提出基于数据相对变化率的时间序列孤立点噪声数据的识别方法。(2)时间序列的压缩时间序列压缩是时间序列时序关联规则挖掘的第二步:如何把时间序列转化成模式序列。首先分析时序关联规则挖掘过程中数据压缩的必要性、目的和意义,其次综述已有时间序列压缩方法,在此基础上提出时间序列压缩方法的评价体系,并对已有压缩方法进行比较分析,然后选择有利于时序关联规则挖掘的时间序列压缩方法,最后对所选择压缩方法分割点的确定加以改进。(3)时间序列模式相似性的度量时间序列模式间相似性度量是时间序列时序关联规则的重要内容之一。只有很好地度量模式间的相似性,才能更好地完成模式序列中频繁模式和时序关联规则的获取。本文认为已有度量两个元模式相似性的方法存在弊端,考虑到序列模式的相似性度量涉及两个不同长度的模式,因而把度量两个不同维数的点间的距离的方法应用到序列模式相似性的度量上,提出序列模式相似性的动态时间弯曲距离度量法。(4)时间序列时序关联规则的获取时间序列时序关联规则挖掘的第三步:怎样从模式序列中获取频繁模式进而生成强时序关联规则。在一般时序关联规则中,对象或者事件的频繁性由其出现的次数决定。但由于时间序列模式的差异性,模式出现的次数不能决定其频繁性,而应由与其相似模式的数目决定。在时序关联规则的生成过程中,针对时间序列模式频繁性的特殊性,本文提出时序关联规则的分层获取方法,并用实证加以分析。(5)时间序列的相似性本文对时间序列的相似性研究从两方面展开。一方面研究一元时间序列序列的相似性。首先综述国内外关于时间序列相似性的研究,并分析存在问题,然后针对时间序列的时序性特点提出度量时间序列相似性的图形相似法,并分析该方法的优缺点;另一方面研究多元时间序列的相似性。首先分析度量多元时间序列相似性的必要性,然后分析该研究的难点所在,最后提出两种度量时间序列相似性的方法:基于矩阵范数和基于综合属性的多元时间序列的相似性度量方法。(6)时间序列时序关联规则挖掘平台时间序列时序关联规则挖掘平台以JAVA作为开发语言,共有六个模块,实现数据加载、时间序列的预处理、时间序列压缩、时间序列模式相似性度量、时序关联规则获取、时序关联规则评价和时间序列相似性度量等功能。一方面对各个步骤的改进方法进行实证分析,另一方面实现从时间序列中挖掘时序关联规则。本文的研究按照时序关联规则的挖掘步骤展开,从时间序列时序关联规则的第一步时间序列预处理到最后一步时序关联规则解释与评价。在每个步骤中,对已有研究进行梳理,对所涉及的理论模型进行推导,并提出改进方法。由于时间序列相似性在时间序列数据挖掘中起到重要作用,本文专门对时间序列的相似性进行探讨。本文的主要创新点归纳为:(1)在时序关联规则挖掘的时间序列预处理中,提出基于数据相对变化率的孤立点噪声数据识别方法。时间序列一般都含有噪声数据,其存在对时序关联规则的挖掘有很大影响,因此,在挖掘前必须去除噪声数据。但由于时间序列压缩对孤立点噪声数据不具有容忍性,而且孤立点的存在会影响时间序列的分割和时间序列模式表示,所以识别和删除时间序列中的孤立点噪声数据便成为时间序列预处理的重要工作之一。数据是否是时间序列的孤立点,关键是看它与周围数据的跳跃程度。本文以时间序列数据相对变化率作为判断其跳跃程度的标准,提出新的孤立点噪声数据识别方法。(2)在时间序列模式相似性度量中,提出度量两个元模式相似性的加权距离法以及可以度量两个不同长度序列模式相似性的动态时间弯曲距离法。在时序关联规则的挖掘中,元模式单调距离法、元模式向量距离法度量两个元模式相似性都不适合频繁模式的获取。因此,本文针对时间序列模式的特点提出元模式的加权距离,并在此基础之上提出度量两个序列模式相似性的动态时间弯曲距离法。(3)在时间序列时序关联规则的获取中,提出分层时序关联规则获取方法。时序关联规则的时间约束、关联规则的前、后件长度决定时序关联规则的获取。为了降低获取中的难度,只有把时序关联规则的前件分成不同的长度,由此提出分层时序关联规则的获取方法。由于频繁模式界定上的差异,这种方法有别于一般的获取方法;但也由于这种方法考虑到各种长度的关联规则前件,所以具有其他时序关联规则获取方法所不具有的优点。(4)在度量两个时间序列的相似性时,因为已有一元时间序列相似性的度量方法忽略了时间序列是以时间为变量的函数,本文经研究论证提出度量两个一元时间序列相似性的图形相似法。同时,在多元时间序列的相似性度量中,因考虑到多元时间序列的存储结构是矩阵,本文提出度量两个多元时间序列相似性的基于矩阵范数的多元时间序列相似性度量方法和基于综合性的多元时间序列相似性度量方法。
其他文献
医学图像三维重建及可视化是将计算机图形学和图像处理技术应用在生物医学上,利用人类视觉系统特性,在计算机上对医学成像设备所产生的二维断层图像序列,进行一定的处理和转
本文在阐述公路运输爆炸品的重大危害和进行风险评估的重要性基础上,分析了国内外危险化学品风险评估研究状况。运用事故致因理论中危险源理论以及故障树分析方法(FTA),针对
明确不同播期条件下,玉米关键生育期对积温的需求及叶面积系数动态和积温的关系。本研究选用早、中、晚3个熟期不同的玉米品种(益农103、先玉335和登海661)为材料,设早播(5月
处于经济发展较快、社会正在转型且在强力推进中原经济区建设中的河南,社会建设欠账较多、公共服务水平较低、社会管理相对滞后。社会管理需要多元化创新,特别是基于当前多元
目的:分析冠心病证候、治法和药物之间的关系。方法:采用病证结合的方法,调查3018例冠心病住院患者的临床信息;基于冠心病个体化诊疗信息平台,用复杂网络挖掘分析冠心病患者
国道G111讷嫩段是较严重的风沙区,选取9种东北常见绿化灌木,对其根系土壤抗蚀性进行研究。首先以全根挖掘法考察其根系形态分布特征,以静水崩解法确定不同灌木根系土粒抗蚀指
通过对中、丹两国公共卫生硕士(Master of Public Health,MPH)教育在入学选拔与学制、培养目标与定位、课程结构与设置、教学方法与评价方式等方面的比较研究,以期为我国MPH教育
从粘土-水系统中粘土颗粒的板面结构特点,系统的PH值出发研究了浆料的絮凝和解凝现象,并就解凝剂的加入量对系统粘度的影响,就浆料的流动性,触变性,注浆速率,脱水性,挺形能力和生坯的
国际保理历史悠久,其渊源能够追溯到五千年前的巴比伦时代,在19世纪90年代的美国得到了快速的发展。当前,国际保理已经取代信用证成为全球国际贸易的主要结算方式,并且其业务
本文从时间的历时性和共时性角度去审视《长恨歌》中王琦瑶这一女性形象。在历史性维度中,探讨其女性的命运以及角色问题;在共时性的维度中,分析其自身存在的形式与生活状态,