论文部分内容阅读
Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。面向Web的数据挖掘是一项复杂的技术,由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。
本文详细探讨了Web内容挖掘、结构挖掘和使用记录挖掘。针对Web数据挖掘遇到的异构数据库环境、半结构化的数据结构等难题和现有的Web内容挖掘系统存在的问题,设计了一个基于XML的Web内容数据挖掘系统框架模型。模型包括搜索引擎模块、XML隧道集成预处理模块和数据挖掘模块三大模块。讨论了系统框架的配置、模型设计特点及对现有的Web内容挖掘系统的改进,并对模型中的各模块进行了详细的探究。其中在搜索引擎模块包含的权威页面算法选取中,在分析了Page-rank算法缺陷的基础上,引进了一种新的高效的Page-rank修正算法的定义;在XML隧道集成预处理模块中用Java语言实现了非XML文档到XML文档的代码调试工作,在将XML文档存储到关系数据库中的技术中引进了一种新的基于DTD-ER方法的XML数据存储在关系数据库中的新的技术。
相对于目前的IDGS、WebCrawer、Vista和Personalized WebAgents等Web内容挖掘系统,本文所设计的框架模型更好的实现了用户交互,用户可以根据自己的需要设置挖掘参数,对挖掘出的结果进行用户评估,从而更好的实现用户个性化的Web挖掘;对搜索出的信息选用改进的Page-rank修正算法确定权威Web页面,以提高供挖掘页面的权威性和有效性。