论文部分内容阅读
在网络和信息技术发展的同时,知识发现和信息交流的问题成为当前网络与数据库等领域的研究热点,数据挖掘和XML就是为解决这两个问题而发展起来的新兴技术,如果将二者结合起来研究,就同时解决了知识的发现、表示和传播等问题.该文对XML和数据挖掘技术做了较全面的论述,对数据挖掘的各个环节,提出了用XML技术来解决的途径,为这两个热点问题找到了新的结合点.1.该文以铁通综合信息服务网(CRIS)系统作为数据挖掘的环境,提出一个基于XML的数据挖掘模型——XDMS,在该模型中主要研究了基于XML的异构数据集成、半结构化数据预处理和XML数据集上的数据挖掘三个问题.2.异构数据源的联合使用是基于XML的数据挖掘首先要解决的问题.该文提出将XML技术应用于异构数据集成,实现关系数据库系统和文件系统之间的集成整合与转换,有效地解决了异构数据集成的问题.3.在数据挖掘前期,还必须进行XML数据的预处理.该文论述了领域知识应用于数据预处理过程的特点和意义,介绍了一种面向数据预处理的领域知识的分类和表示方法,并在此基础上设计了将领域知识应用于XDMS数据预处理的模型和算法.4.对XML数据集进行关联规则挖掘是该文研究的重点,文中对经典的Apriori算法进行了详细剖析,在此基础上提出了一种适用于XML环境的移植和优化方案,并利用哈希技术,结合XML的DOM编程技术来实现,这种方案充分发挥了哈希表的快速索引以及XML文档对象模型的优势.最后,论文对仿真实验的运行结果进行了分析和比较,在结束语中对XDMS模型的优点进行了总结,并对进一步可能的研究进行了展望.