基于Web结构信息与Kohonen神经网络的Web使用挖掘研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:fencer_20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web在信息共享、电子商务和提供在线服务方面的广泛应用,许多的企业投入大量资金建立自己的网站用于发布信息、为自己的产品和服务作宣传、进行电子商务活动,它们急切需要了解这些投资产生的效益和作用,以便改进企业的战略,获得更多的商业机会,为用户提供更完善的服务。所以,理解用户的访问模式对这些企业来说至关重要,数据挖掘为解决此问题提供了思路。   数据挖掘最初主要使用在数据库上,但数据挖掘的对象并不局限于数据库,现在人们已经将数据挖掘的知识应用到了Web 领域上,用来从网络信息当中挖掘出潜在的、有用的模式来。基于Web的挖掘又分为三类,对日志的挖掘是属于其中的使用挖掘。作为记录了人们访问情况的网络日志特别是服务器日志,由于日志数据有着固定的结构,更容易进行挖掘,而受到研究者的青睐。本文对于数据挖掘的定义、数据挖掘的任务、数据挖掘中的对象、数据挖掘的分析方法都做了很详尽的论述。   用户访问模式代表了用户访问网站的兴趣。通过挖掘用户访问模式,可以改进Web 服务器的性能、改善网站结构、识别电子商务中潜在的客户,提高对用户服务的质量。   本文采用了基于Web 结构信息与Kohonen 神经网络相结合的方式来进行用户访问模式的挖掘,并采用数据库存储过程来自动化实现数据预处理过程,主要内容如下:   (1)Web 结构信息的获取大型的Web 站点页面有成千上万,直接在页面级别基础上进行用户会话聚类分析是不大可能的,但是Web 站点子模块和一级目录名称只有有限的几十个,所以可以将用户访问一级目录下所有页面信息都汇聚到一级目录,从而反应出用户对于某个一级目录感兴趣的程度。   (2)Kohonen 神经网络Kohonen 神经网络的工作原理是将任意维输入模式在输出层映射成一维或二维离散图形,并保持其拓扑结构不变。此外,网络通过对输入模式的反复学习,可以使权重向量空间与输入模式的概率分布趋于一致,即权重向量空间能反映输入模式的统计特征。这种自组织聚类过程是在系统自主、无监督的条件下完成的。   (3)Web 结构信息与Kohonen算法的接口实现将Web 结构信息与Kohonen算法通过向量形式实现了业务与算法输入之间的接口,将用户访问页面的兴趣点汇聚到一级目录层次,并进行用户会话聚类分析,获得有价值的用户会话群及其群特征。   (4)数据预处理过程的优化本文数据预处理阶段采用数据库存储过程实现,可以动态的加载更新数据及执行数据预处理的各个步骤,可以采用定时调度的方式来自动实现数据预处理过程。另外在数据预处理步骤中增加了Web 站点结构信息的获取,动态的获取在一定周期内用户访问一级目录下的页面访问次数。   本文最后采用某高校网站用户访问日志数据来构建原型系统,并和其它聚类算法进行比较。实验表明,本文提出的模型能较好的挖掘用户访问模式。
其他文献
随着Internet/Web技术的快速普及和迅猛发展,Web数据已成为当今世界第一大“数据仓库”,怎样从海量的Web数据中发现知识,造福于人类,是Web数据挖掘这项技术被时代赋予的使命。然
随着计算机网络和通信技术的飞速发展,网络环境已经从早期相对静态的、面向特定组织和用户群体的封闭网络,转变为可公共访问的、面向大量动态用户的开放网络。开放网络促进了
Web服务是近年提出的一种新的面向Web的分布应用开发与集成框架,它基于面向服务的体系结构,采用Internet通信协议和XML编码传输消息,具有系统平台无关、开发语言无关、松散耦合
随着互联网的普及,越来越多的系统支持用户通过URL来获取系统的服务,而每个URL对应的Web用户界面(Web User Interfaces,WUI)则是系统为用户提供的图形化前端界面。因此,对这种提供
自因特网之父麻省理工学院万维网协会主席蒂姆·伯纳斯·李在XML2000大会上提出了新一代的万维网(语义网)以来,语义网已取得了巨大的发展。本体已经被证明对描述领域知识很有
随着改革开放步伐的日益深入,融资难成为制约我国中小企业发展的主要因素和瓶颈。动产质押业务拓宽了企业融资渠道,有利于企业存货资产和资金周转。近年来该业务呈现迅猛发展的
网格是建立在Internet上的一种新型的信息技术基础设施,目的是无缝地集成广域资源来合作解决问题,实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全面共
随着计算机互联网的发展和广泛应用,网络安全特别是网络入侵问题变得越来越严重。因此,开展网络安全特别是入侵攻击和防范技术的研究,开发高效实用的入侵检测系统对计算机网络的
学位
无线Mesh网络(Wireless Mesh Networks,WMN)是一种速率高、覆盖广、扩展性强和投资低的新兴网络,它将成为拓展和加强无线宽带接入Internet的解决方案。但是,其业务流的波动变