论文部分内容阅读
随着信息技术的飞速发展,数据挖掘受到越来越多的关注。本文在综述国内外数据挖掘研究发展概况后,对时间序列的表达、搜索等几个问题进行研究分析,提出一些算法和解决方案,取得一定成果,主要包括以下内容: 1)提出时间序列的趋势表示模型,可以有效刻画时间序列的动态变化趋势。通过趋势投影,实现时间序列趋势距离的快速计算。序列趋势距离方法克服以点距离为基础的时间序列误匹配以及物理概念不明确等缺陷。对应时间序列线性分段数目的不同,序列趋势距离具有基于时间的多尺度分析特性,可以有效反应不同分析频率下时间序列的相似程度; 2)采用相对点平均残差衡量Bottom_Up算法划分的子序列线性度,提出子序列线性度概念和一种双误差阀值改进算法,大大提高了趋势序列模型的准确性。并分别对人工数据和股票指数进行仿真计算; 3)通过分析相邻子序列趋势距离的相似性,提出一种变步长趋势子序列快速搜索算法。和已有的方法相比,在空间和时间性能上都取得了令人满意的结果。对结果冗余集合进行分析,并提出一种简单的解决方法。在模拟数据上进行仿真实验,并对结果进行分析和讨论; 4)将Dynamic Time Warping理论运用到实际工业过程数据处理中,解决由于反应时间、采样时间的不一致以及在间歇过程中,类似变化过程的采样数据长度互不相等而无法实现相似性趋势序列搜索问题。提出用趋势变换序列DTW距离做筛选的搜索方法,有效提高整个搜索效率,并在模拟数据库上进行仿真实验,并对实验结果进行分析和讨论; 5)以Borland C++Builder和Matlab为开发平台,设计一个进行关联规则挖掘的准系统I_Miner,可以实现数据预处理,数据变换和关联规则挖掘等工作。并应用上述部分算法,用I_Miner对一实际化工装置生产数据进行关联规则挖掘。 最后在总结全文的基础上,指出了时间序列数据挖掘有待深入研究的若干个问题。