论文部分内容阅读
随着World Wide Web信息爆炸性的增长,人们迫切需要一种能从Web上快速、有效地获取知识的工具。现有的搜索引擎仅用于Web上的信息检索,而且覆盖率有限、精度不高,无法发现Web上潜在的知识。将传统的数据挖掘与Web结合进行Web挖掘,已成为数据挖掘的一个重要和繁荣的子领域。 论文侧重于Web挖掘系统自身的构建,建立了一个基于数据挖掘技术的Web挖掘系统的原型Web_Ms,目的是提供一个实用的Web挖掘工具的模型,帮助人们更有效地从Web上获取知识。 在Web上的半结构化数据的处理上,本文提出了利用XML数据抽取技术将半结构化数据映射为结构化数据、建立多层Web数据库,同时对Web日志预处理的方案,解决了Web挖掘系统数据源规范化的问题。在系统挖掘功能的实现上,采取将集成了多种数据挖掘方法的Web挖掘方法库作为一个模块嵌入系统中的策略,通过规定其接口规范和调用方法,使之与系统其他模块紧密结合,共同完成Web上的数据挖掘。 Web挖掘系统原型Web_Ms提供了一个Web挖掘工具的模型,对实用的Web挖掘系统的开发具有较好的参考价值,对Web挖掘的理论研究也将起到一定的推动作用。