论文部分内容阅读
随着Internet的迅速发展和普及,网络已成为人们进行信息交流和信息处理的有效平台。人们对网络服务的期望值在不断提高,希望得到更全面、更丰富、更适合自己的Web服务。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从WWW上获取有用信息。因此,如何快速准确地获取所需信息、如何获得信息之间潜在的知识以及如何提供个性化服务,己经成为急需解决的问题,也是Web挖掘领域的研究热点。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘是目前最广泛的研究领域。而在Web使用挖掘过程中,数据预处理起着关键的作用。本文着重研究Web使用挖掘中的数据预处理技术,对数据预处理过程中涉及到的关键问题和技术进行详细的分析和研究。本论文主要做了以下几方面的工作:1.综述了Web使用挖掘的基本框架、流程及挖掘技术,对Web日志预处理的过程、关键技术和方法进行了深入的研究;2.系统讨论了Web文本挖掘的相关理论及文本挖掘分析技术,给出了Web文本挖掘的处理流程;3.在分析传统事务识别方法不足的基础上,结合网页内容对事务识别方法进行适当的改进,将文本聚类算法引入到事务识别的过程中。根据改进后事务识别方法的需要,对文本聚类算法作相应的修改;4.提出了一个Web日志数据预处理模型,并通过实验验证了改进算发法的合理性。