Web使用挖掘技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:huhu39
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说,它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘的研究目的在于发现用户浏览网站的行为规律,开展个性化服务,改善站点的结构和页面间超级链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决策支持。本文在介绍Web使用挖掘的相关理论的基础上,详细论述了Web使用挖掘的整个过程和相关技术。本文所做的主要工作和新见解如下:  ●介绍论述了数据挖掘和知识发现的概念应用,并且详细介绍了Web挖掘的概念、特点和应用;  ●阐述Web使用挖掘的定义、过程、应用。以及在Web挖掘各个阶段的研究内容和相关技术:  ●在Web使用挖掘的数据收集阶段,设计并实现了一种全新的数据收集系统。数据的收集更加准确、高效。  ●在Web使用挖掘的数据预处理阶段,结合数据的收集,使用服务器会话标识,提出了一种新的会话构造方法。该方法根据用户与服务器之间的交互行为,确定用户当次会话是否结束。同时,设计了基于时间、客户IP、引用页综合判断的会话识别方式,解决了多站点数据合并的问题。为数据挖掘提供了相对准确的数据源。为了提高访问模式挖掘的效率,对数据进行了格式化,这在一定程度上方便了用户频繁访问模式的挖掘;  ●在模式发现步骤中,本文使用Hash树改进的Apriori算法,实现了频繁访问模式的关联规则挖掘。该算法可以用于发现大多数用户每次访问网站的规律,发现用户的频繁访问模式。最后,对相关领域其它较优的算法进行了介绍;  ●设计开发了Web使用挖掘系统(Web Usage Mining System)。此系统具备了基本Web使用挖掘系统的全部功能模块。并且已经应用到了本人的工作中,通过对图书馆网站的访问数据的挖掘证明对改进网站结构,提高服务质量有很大的帮助。
其他文献
近年来,随着遥感、地理信息和计算机技术的飞速发展,获取到的三维地理信息数据量越来越多、精度越来越高,使得更直观、更自然的方式来了解和处理相关的地理数据成为可能。在这种
基于物理的变形动画是计算机图形学中的重要课题,近年来成为研究热点。薄壳模型是变形体中一类特殊的模型,在生活中随处可见,比如树叶、帽子、气球等。由于这类物体的常见性,薄壳
随着计算机网络技术的飞速发展,各种基于网络的信息系统在社会生活的各个方面得到了广泛的应用。然而,在计算机网络给我们带来方便和效率的同时,频频发生的网络攻击也给我们带来
冲模设计是一个复杂的过程,严重依赖于设计者的经验,如何提高冲模设计智能化程度一直是冲模CAD领域的研究重点。本文将基于实例推理技术和粗糙集理论应用到冲模CAD领域,以期充分
随着计算机软件广泛应用于各个行业,软件系统涉及的领域越来越广,规模越来越大,其复杂性变得越来越高。与此同时,软件系统的安全性也成为人们密切关注的问题。从代码实现角度讲,安
在市场激烈竞争下,制造业的生产规模日益增大。实际生产中,待解决的往往是上千台机器,每月上千个订单的大规模调度问题。由于生产调度问题的本质是组合优化问题,而现有的生产调度
20世纪90年代以来,我国在高性能计算机的研制方面已经取得了较好的成绩,我国的高性能计算环境已得到重大改善,总计算能力与发达国家的差距正逐步缩小。然而高性能计算应用的研究
学位
分布式网络地理信息系统WebGIS是开放式GIS内涵的自然延伸,以Intemet网络为信息基础平台,分布式网络地理信息系统可以使用户同时访问分布式的多个服务器和分布式的空间数据库,因
学位
本文设计了一套流量采集系统并对其中P2P流量进行识别,详细设计了整套系统的流程;并对采集到的数据采用R/S图和方差-时间两种不同方法分析了不同时间尺度下分组到达过程,并对Hur
传统的机器学习方法,主要是面向静态的、同构的、同态的、非分布或小规模分布的环境,不适于复杂数据的学习,难以描述和处理群体智能学习中许多本质性的特征。处理复杂的学习环境