论文部分内容阅读
随着Web在信息共享、电子商务和提供在线服务方面的广泛应用,许多的企业投入大量资金建立自己的网站用于发布信息、为自己的产品和服务作宣传、进行电子商务活动,它们急切需要了解这些投资产生的效益和作用,以便改进企业的战略,获得更多的商业机会,为用户提供更完善的服务。所以,理解用户的访问模式对这些企业来说至关重要,数据挖掘为解决此问题提供了思路。
数据挖掘最初主要使用在数据库上,但数据挖掘的对象并不局限于数据库,现在人们已经将数据挖掘的知识应用到了Web 领域上,用来从网络信息当中挖掘出潜在的、有用的模式来。基于Web的挖掘又分为三类,对日志的挖掘是属于其中的使用挖掘。作为记录了人们访问情况的网络日志特别是服务器日志,由于日志数据有着固定的结构,更容易进行挖掘,而受到研究者的青睐。本文对于数据挖掘的定义、数据挖掘的任务、数据挖掘中的对象、数据挖掘的分析方法都做了很详尽的论述。
用户访问模式代表了用户访问网站的兴趣。通过挖掘用户访问模式,可以改进Web 服务器的性能、改善网站结构、识别电子商务中潜在的客户,提高对用户服务的质量。
本文采用了基于Web 结构信息与Kohonen 神经网络相结合的方式来进行用户访问模式的挖掘,并采用数据库存储过程来自动化实现数据预处理过程,主要内容如下:
(1)Web 结构信息的获取大型的Web 站点页面有成千上万,直接在页面级别基础上进行用户会话聚类分析是不大可能的,但是Web 站点子模块和一级目录名称只有有限的几十个,所以可以将用户访问一级目录下所有页面信息都汇聚到一级目录,从而反应出用户对于某个一级目录感兴趣的程度。
(2)Kohonen 神经网络Kohonen 神经网络的工作原理是将任意维输入模式在输出层映射成一维或二维离散图形,并保持其拓扑结构不变。此外,网络通过对输入模式的反复学习,可以使权重向量空间与输入模式的概率分布趋于一致,即权重向量空间能反映输入模式的统计特征。这种自组织聚类过程是在系统自主、无监督的条件下完成的。
(3)Web 结构信息与Kohonen算法的接口实现将Web 结构信息与Kohonen算法通过向量形式实现了业务与算法输入之间的接口,将用户访问页面的兴趣点汇聚到一级目录层次,并进行用户会话聚类分析,获得有价值的用户会话群及其群特征。
(4)数据预处理过程的优化本文数据预处理阶段采用数据库存储过程实现,可以动态的加载更新数据及执行数据预处理的各个步骤,可以采用定时调度的方式来自动实现数据预处理过程。另外在数据预处理步骤中增加了Web 站点结构信息的获取,动态的获取在一定周期内用户访问一级目录下的页面访问次数。
本文最后采用某高校网站用户访问日志数据来构建原型系统,并和其它聚类算法进行比较。实验表明,本文提出的模型能较好的挖掘用户访问模式。