论文部分内容阅读
随着WWW上资源的与日俱增,如何使用有效的方法从中获取所需的信息,成为研究人员所面临的一个重要问题。Web挖掘就是从Web上的数据(如Web日志、Web页面内容)发现用户的浏览模式或寻找相关的Web页面。通过Web挖掘既可以为站点管理者、投资商和广告商等提供合理建议,也可以为用户提供功能强大的智能搜索引擎、个性化服务等。由于Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的,获取的知识也是不可靠的。然而,Web服务器的log日志有着完整的结构。所以,我们可以通过对Web日志文件的挖掘来实现对Web数据的使用挖掘。 本文首先分析了Web挖掘的动态,并提出了问题所在;然后介绍了数据挖掘及Web挖掘技术,并阐述了XML与Web挖掘之间的关系。 详细描述了Web数据的使用挖掘系统的三个处理过程。 数据预处理阶段:Web使用信息的预处理是Web数据的使用挖掘任务中的重要阶段,也是工作量较大的一部分,数据预处理的质量直接关系到数据挖掘结果的好坏,本文主要讨论了预处理过程中的数据收集、数据清洗、用户识别、会话识别、事务识别和路径修补等各个环节。 模式发现阶段:这部分工作也是本文研究的一个重点。首先介绍了Web日志挖掘中常用的路径分析、关联规则、分类与聚类技术;然后通过对问题的描述,引出了本文所使用的一种高效的时间序列挖掘算法,该算法既保证了时间序列挖掘上的完整性,同时又具有更高的效率。 模式分析及应用阶段:主要介绍了模式分析作为Web数据的使用挖掘的最后一个重要步骤,为了让用户能够得到并理解所需要的知识,系统采取三种方法,即查询机制、OLAP技术和可视化技术。 针对Web数据自身的特点,总结了Web数据的使用挖掘的一般过程,并且在考虑到系统功能扩展的同时,设计了系统的结构图。