论文部分内容阅读
数据挖掘就是从大量的数据中提取隐含的、未知的、具有潜在价值的有用信息。Web使用挖掘就是运用数据挖掘的思想来对Web服务器日志进行分析处理。Web使用挖掘在电子商务和Web个性化等方面有着广泛的应用。通过挖掘Web使用挖掘可以改善网站的组织结构,监控服务器的工作情况,改善Web应用的系统设计,为用户提供个性化服务。
数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式、神经网络等等。关联规则是数据挖掘领域中一个非常重要的研究课题,Apriori算法是关联规则最经典的算法。
数据预处理是数据挖掘非常关键的环节,其好坏直接影响到后续工作是否能得到理想的结果,同时也决定了最终挖掘出的知识的可信度。Web使用挖掘数据预处理包括四个步骤:数据清理、用户识别、会话识别、路径补全。
本文研究了Web使用挖掘的特点、方法和相关技术,讨论了数据预处理的过程和有效的数据预处理方法。运用Apriori算法、Clementine数据挖掘工具对中俄经贸合作网Web使用日志进行挖掘,详细给出Web使用日志数据预处理的方法、对挖掘结果进行分析。