论文部分内容阅读
随着信息产业的发展,我们已进入互联网+的大数据时代,大量数据被获取并积累。如何快速从规模海量,结构复杂并且形式多样的时间序列中快速提取有用的信息尤为重要。为了保证数据挖掘得到信息的准确性和有效性,需要对时间序列数据进行有效的表示。本文基于尺度空间的概念,提出多尺度的时间序列表示方法,从多个时间尺度对时间序列分析和表示,以便于后期综合考虑或选择合适尺度进行分析及异常检测。在多尺度表示方法的基础上,与典型异常检测算法相结合,采用权重因子综合多个尺度的异常分析结果,搭建了基于多尺度表示方法的时间序列异常检测框架。本文的主要研究内容有:(1)不同尺度在时间上体现为不同的时间间隔,如年月日小时分钟,不同人群或实际问题对时间尺度大小的需求不同,对时间序列的多尺度表示是一个值得研究的方向。高层管理者更为关注高尺度的数据(以年,季度等为单位),一线工作者更为关注低时间尺度的数据(以分钟,小时等为单位)。由此,本文提出多时间尺度的表示方法,以不同的时间间隔将时间序列均等划分为多个尺度,并使用同种表示方法对每一尺度进行特征提取,形成多时间尺度的数据表示。并采用每个尺度的最近邻距离作为异常得分,对每个尺度中表示的给定序列的异常程度进行评价。通过使用权重因子,对所有尺度的异常得分进行加权得到最终的异常检测结果。对合成数据和公开数据进行的实验研究结果表明该方法相较于单一尺度的表示方法具有更高的准确率,F1分数是PAA方法的1.5倍。(2)人类观察某一事物时往往从多个角度进行观察分析,并将得到信息综合考虑。由于每个尺度均采用同样的表示方法导致其只关注单一类型的特征,容易导致漏检和误检现象。因此在多时间尺度的数据表示方法基础上,提出多种特征的多尺度表示方法,每个尺度选用不同的数据表示方法以提取相应尺度空间上形成的各种特征。达到从不同角度观察并分析同一时间序列的目的,满足用户的多样需求。实验表明,该方法对各种异常的识别能力较好,显示出比单一尺度方法更高的准确性,平均改进61.65%,最小和最大改进分别为21.5%和131.5%。