论文部分内容阅读
结构挖掘(Structured Mining)是数据挖掘一个新的分支领域,是指对结构数据库中非显式存在的知识、关系或其他有意义的模式等的提取,包括树,图,分子,XML文档等结构的挖掘。具体而言是在结构数据库的基础上,综合利用统计学方法,人工智能方法,神经网络技术和科学计算可视化技术等相关信息技术,从海量的数据中吸取人们可信的,新颖的,感兴趣的,隐含的,事先未知的,潜在有用的,最终可理解的知识,从而实现知识的自动获取。结构数据挖掘在XML文档挖掘,网页流量挖掘,生物进化的分析,路由选择,生物信息学,生物计算,通讯系统,图像数据库,城镇规划等诸多领域发挥重要作用。由于结构数据库的海量,频繁子树的数量通常随树的大小指数增长,这种情况在事务间高度相关的数据库中尤为突出,这带来了两个问题:用户需要管理和使用大量的频繁子树;直接挖掘所有频繁子树的算法不能用于大型图形数据库。本课题在此背景下,主要对传统数据挖掘技术和结构挖掘技术进行了如下几个方面的研究:首先,研究了数据挖掘的概念与原理、数据的预处理技术、数据挖掘的任务和对象、数据挖掘的方法、数据挖掘的工具和步骤、数据挖掘中存在的问题,重点研究了Apriori算法和FP-growth算法的思想、实现过程,对两种算法的性能进行了比较。其次,研究了结构化与非结构化数据的基本概念、树结构挖掘的研究现状、现有树结构挖掘技术存在的问题、FreeTreeMiner算法及其基本思想,重点研究了Free树的规范化和预处理技术、封闭频繁子树和最大频繁子树的概念和性质、树结构的剪枝和生长技术、树结构的挖掘技术。最后,设计和实现了通用树结构挖掘原型系统以及系统的测试分析。通过原型系统的设计开发,从而将传统数据挖掘的方法和结构挖掘算法结合起来,改进了树结构的规范化和预处理技术、树结构的剪枝和生长技术、树结构的挖掘技术,有效地实现了系统设计目的。通过对原型系统的验证分析证明了挖掘算法的正确性和有效性。