论文部分内容阅读
近年来,在数据挖掘领域,时间序列数据的挖掘技术取得了很大的进展。随着网络技术和无线传感器等数据感知搜集技术的不断强大,一方面,时间序列数据的结构越来越复杂,数据量的海量性也在不断地增加,另一方面,人们越来越需要从这些更为复杂的数据中发现更多的更为有用的信息和知识。与此同时,计算机的计算能力的不断强大,也对研究这些更为复杂结构的数据的特征以及挖掘发现出其中的信息和知识提供了可能。而对于诸如流式时间序列、不确定性时间序列、多时间序列等复杂结构的时间序列的数据挖掘技术还研究的不多,以往的传统的时间序列数据挖掘技术大多是对于相对简单结构的时间序列数据的挖掘。因此,对于复杂结构的时间序列数据的挖掘成为时间序列数据挖掘的新的热点问题,而结构的复杂性也使得对于复杂结构的时间序列数据挖掘技术面临着新的挑战性问题。传感器网络中的数据是最为典型的数据流时间序列,每时每刻都在不断地产生流式数据,在短时间内有大量的数据以非常快的速度连续到达,数据量往往可能是无限大的,系统没有条件保存整个数据,这些数据随时间动态变化。针对无线传感器网络中的数据流时间序列的的复杂结构特性,主要基于节省无线传感器网络中电池能量消耗效率问题,提出了一种无线传感器网络中Top-k数据异常检测的方法PECTMA。其中,提出了4个算法,自回归持续读检测算法CRVMR,Top-k排序算法Top-k-sort,空间冗余清除算法ESR和Top-k个异常的汇集算法BRCR。总体的思想是,减少传感器节点需要传输的数据的传输量,以节省电池能源。通过与知名的可用于无线传感器网络中的异常检测的方法TA和TAG的对比实验,验证了PECTMA方法的有效性和效率。在许多现实应用中,例如受传感器等数据采集仪器设备的精度的制约、不同粗细粒度的数据集合之间的数据转换、隐私保护等,数据的不确定性普遍存在。一方面由于时间序列数据往往存在高纬度的特性,再一方面由于不确定性数据的概率不确定性的特性,使得传统的数据管理中的数据表示、存储与索引、查询与挖掘等所有的技术,不能直接应用于不确定性时间序列数据的相似性查找。研究了可用于不确定性时间序列数据的降维表示、索引与剪枝、查找等理论与技术,针对不确定性时间序列数据结构的复杂性,首次给出了不确定性时间序列上的概率最近邻的定义;将不确定性时间序列进行PLA降维,转换到PLA空间,并提出了三个定理,用以加速查找效率;基于该三个定理,提出了不确定性时间序列数据中的概率K最近邻查找的方法PKNNU,给出了相应的查找算法PKNNS。通过实验,验证了PKNNS算法的有效性和效率。论坛网络是一种典型的虚拟社会网络,社会网络的一些特性,如网络规模大小、存在小社会社区结构、社区关系强度、有影响力的节点、节点在社区中的稳定性等一些重要的统计量,往往正是论坛社会网络不断动态演变的外在表现,反映着论坛舆情的演进趋势情况,这些量也形成论坛网络中的多个变量的时间序列数据。结合社区结构分析和多时间序列趋势之间的关联规则分析,提出了一种论坛舆情趋势预测方法FSTP。首次对多时间序列的趋势之间的关联规则给出了定义;建立了论坛舆情预测的时间序列分析模式;FSTP方法集合了社区结构分析、时间序列预测和多时间序列的趋势之间的规则关联的挖掘,并给出了相应的FSTPM算法。在真实的和拟合的数据集上进行了实验,测试了关联规则的置信度和支持度,并与知名的算法Betweenness、External Optimization和Greedy进行了对比实验,验证了FSTPM算法的有效性和效率