论文部分内容阅读
随着社会信息化的发展,Internet越来越受到全世界各类用户的喜爱。他们不断地登陆互联网,在网上搜索、寻找自己所感兴趣的话题和信息,从事一系列的网络交互活动。由于互联网的用户数量众多、构成复杂,互联网的海量数据,以及互联网处理的数据形式比较广泛,迫切需要一种强大的处理技术的诞生。为了提供更高质量的web服务,对web数据进行挖掘成为一种重要的互联网信息处理技术手段,web挖掘应运而生。互联网一般采用的是客户端/服务器结构模式,后台服务器上存储了大量潜在有价值的web日志文件。为了分析网络用户浏览网站的习惯和行为,改善网页间的链接结构和网络拓扑结构,提高网站的系统性能以及为用户提供个性化的服务,可以应用web日志挖掘技术对这些日志数据进行模式发现。本文以面向研究生群体的小型论坛——安研星空论坛(http: //www.ahusky.cn)的日志文件中的数据作为挖掘处理的数据源,主要从以下几个方面进行了相关的阐述、分析和研究。首先,详细介绍了课题的研究背景及意义和国内外的研究现状;概述了数据挖掘产生、定义、过程、方法和应用领域,以及未来的发展。其次阐述了web挖掘的分类、特点、过程、技术和面临的难题,接着分析了数据预处理的过程,指出了预处理过程中遇到的问题。然后介绍了关联规则挖掘的相关概念和关联规则挖掘的经典算法——Apriori算法,详细介绍了Apriori算法的思想、处理步骤和算法过程,指出了Apriori算法用于web日志挖掘的不足之处,提出了基于网站访问结构和数据库压缩的改进策略,对算法进行改进并对新算法进行了详细的分析,验证了新算法的优越性。最后利用论坛日志数据对经典算法和改进后的的算法进行不同条件下的对比实验,对算法的时间性能进行比较,实验表明改进算法时间性能得到较大提高。通过本文的web日志挖掘的研究工作,可以对网络论坛的系统性能进行改进,为用户提供更有效的服务