论文部分内容阅读
信息技术的高速发展导致了海量数据的产生。如何在这些海量数据中发现有用的知识,是我们目前面临的最主要问题。数据挖掘技术的出现,为解决这一问题提供了有力的工具。在这些海量数据中,有一类很重要的数据对象----时间序列。所谓时间序列就是按照时间先后顺序排列各个观测记录的数据集,众多领域中的数据集都具有这个特点。由于时间序列可以准确反映事件随时间变化的过程,近几年来已经成为了数据挖掘领域研究的热点之一。动态性、高维度、高特征相关性和大量噪音是时间序列的独特结构,这种特征使许多经典的处理静态数据的算法难以发挥作用,极大地增加了挖掘算法的研究难度。因此,开展时间序列的数据挖掘研究,是一个具有挑战性的、且有理论价值和实际意义的研究课题。现实中的大量系统可以用复杂网络来刻画。一个典型的网络是由许多节点与连接两个节点之间的边组成,其中节点用来代表真实系统中不同的个体,而边则用来表示个体之间的关系。近年来,复杂网络的研究受到了越来越多的关注,并渗透到从自然科学到工程科学甚至社会科学的多个领域。复杂网络具有的特征之一是社团结构,诸多学者从不同角度对如何发现网络中的社团结构问题进行了研究。事实上,发现网络中社团的过程就是聚类的过程。如何利用复杂网络解决时间序列的聚类问题,是一个值得研究的课题。聚类和关联规则挖掘是数据挖掘领域研究的基本问题。本文通过对序列中的时间进行加权和结合复杂网络理论,开展了如下的研究工作。提出了一种基于Normal矩阵谱平分法的时间序列聚类算法。该算法首先对时间序列数据进行向量形式转化,计算出各个时间序列间的相似度并构建复杂网络,然后利用基于Normal矩阵的谱平分法进行社团划分,相似的时间序列被划分到一个社团,即实现对时间序列数据的聚类。为了验证该方法的有效性和可行性,将其应用于实际的股票时间序列数据聚类分析中,取得了较好的实验结果。在时间越近越重要原则指导下,对记录进行时间加权,通过给出加权的公式,提出了一种基于背景的加权关联规则挖掘方法。该算法可以针对用户感兴趣的时间-地点背景进行关联规则挖掘。相比传统挖掘方法,该方法通过从低层次到高层次概念的序列映射,可以分析出不同粒度层次的相关信息,有利于决策者做出更准确的决策分析,制定更优的策略。