论文部分内容阅读
时态数据挖掘中,由于数据对象不仅规模庞大而且内容复杂,研究重点一直都放在方法的可行性上,已有的挖掘方法大多限于如何挖掘出数据内部规律的表现特征,鲜有关于如何挖掘出数据本质规律的论著。经过查阅大量国内外文献,作者发现时态数据挖掘领域的研究尚处于起步阶段。为改变这一现状,提高时态数据挖掘的效率和效果,本文进行了一系列的研究工作。主要的创新可归结为以下几点。 首先,创新地提出了持续事件序列的概念,建立了规范统一的时态数据格式,完全保留了时态数据内在的时域结构。与已有研究不同,持续事件具有两个显著特点:(1)事件的发生并非瞬间完成,而是在一定的时间段内保持发生状态;(2)以个体为基本单位,并将相关的指标作为条件事件集一并记录。 其次,本文提出了一系列的时态数据挖掘方法。在规则挖掘中,本文重新整合了数据挖掘中的关联规则的定义,进一步提出了时态规则挖掘,使其能够适应时域特征更为复杂的时态数据;在聚类分析中,利用粗糙集理论的“等价关系”概念,创新地提出高维数据的粗糙集聚类方法,完全避免了高维数据聚类中的维数灾问题;而在模型挖掘中,借鉴风险模型的建模思想,提出了时态数据的模型化挖掘技术,使数据挖掘具备了捕捉时态数据内在规律的能力。 最后,本文还对这三类时态数据挖掘方法分别进行了实例分析。对于手机用户的月度消费数据,我们分别进行了时态规则挖掘和粗糙集聚类两类最主要的挖掘方法;上市公司ST事件的时态数据合并了2000年至2005年间的所有中国A股股票的财务报表和市场表现。尽管所涉及的数据规模较大,本文利用模型挖掘,仍然成功的完成了挖掘任务。 本文所得的主要结论有:(1)在现阶段,时态数据挖掘可以完全采用本文提出的持续事件序列格式进行表示。持续事件序列为时态数据挖掘提供了一个统一规范的数据对象格式,不仅有利于方法论研究,更有利于算法设计和比较;(2)时态规则挖掘显著优于静态规则挖掘。这主要是因为时态规则可以提取出事务在时域上的顺序和并发关系,而静态规则挖掘却不能;(3)粗糙集的等价关系从知识分类的观点给出了一种全新的类的定义,借鉴这一观点,本文提出的粗糙集聚类方法可以高效率的完成高维数据分类分析任务,实例分析的结果也同样很有说服力。(4)对于具有复杂内容的时态数据,模型挖掘的优势非常明显,并且模型挖掘的提出极大地开拓了复杂数据挖掘的研究思路。