基于关联规则的web日志挖掘应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:kl7aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的发展,Internet越来越受到全世界各类用户的喜爱。他们不断地登陆互联网,在网上搜索、寻找自己所感兴趣的话题和信息,从事一系列的网络交互活动。由于互联网的用户数量众多、构成复杂,互联网的海量数据,以及互联网处理的数据形式比较广泛,迫切需要一种强大的处理技术的诞生。为了提供更高质量的web服务,对web数据进行挖掘成为一种重要的互联网信息处理技术手段,web挖掘应运而生。互联网一般采用的是客户端/服务器结构模式,后台服务器上存储了大量潜在有价值的web日志文件。为了分析网络用户浏览网站的习惯和行为,改善网页间的链接结构和网络拓扑结构,提高网站的系统性能以及为用户提供个性化的服务,可以应用web日志挖掘技术对这些日志数据进行模式发现。本文以面向研究生群体的小型论坛——安研星空论坛(http: //www.ahusky.cn)的日志文件中的数据作为挖掘处理的数据源,主要从以下几个方面进行了相关的阐述、分析和研究。首先,详细介绍了课题的研究背景及意义和国内外的研究现状;概述了数据挖掘产生、定义、过程、方法和应用领域,以及未来的发展。其次阐述了web挖掘的分类、特点、过程、技术和面临的难题,接着分析了数据预处理的过程,指出了预处理过程中遇到的问题。然后介绍了关联规则挖掘的相关概念和关联规则挖掘的经典算法——Apriori算法,详细介绍了Apriori算法的思想、处理步骤和算法过程,指出了Apriori算法用于web日志挖掘的不足之处,提出了基于网站访问结构和数据库压缩的改进策略,对算法进行改进并对新算法进行了详细的分析,验证了新算法的优越性。最后利用论坛日志数据对经典算法和改进后的的算法进行不同条件下的对比实验,对算法的时间性能进行比较,实验表明改进算法时间性能得到较大提高。通过本文的web日志挖掘的研究工作,可以对网络论坛的系统性能进行改进,为用户提供更有效的服务
其他文献
近年,智能手机的发展日新月异,手机的硬件和软件更新换代也已进入一个高速发展的阶段,智能手机的功能越来越强大,在给用户提供越来越多便利的同时也给用户带来了不容忽视的安
集成电路技术的限制使得单体计算机的运算速度难以再有快速的提高,因此,多核处理器成为计算机发展的主要方向。多媒体技术的发展使得图像文件不断增大,图像处理的实时性决定
随着计算机网络的快速发展,入侵检测这种传统的被动防御技术,已不能满足日益复杂的网络安全的需求。它急需与其它技术进行融合与协作。一方面目前入侵检测系统还不是很完善,
随着3D技术的发展,电脑动画已经广泛的应用于生物、军事、网络游戏等各个领域。虚拟人是3D动画中最丰富的因素,因此虚拟人动画描述语言是当前研究的一个热点。本论文的主要研
在目前提出的电子合同签订协议中,乐观合同签订协议由于运行效率高而具有应用前景。对于乐观签订协议的设计和验证是一个研究热点,除了常用的理论和方法,人们还提出了一些新的手
双线性对是近几年发展起来的用来构造密码协议的一个重要工具。基于双线性对的特殊性质,诸多有趣的密码协议被构造出来。这些协议利用其他基本数学工具是难以构造的。实现这些
安全多方计算(简称SMC)是指在一个互不信任的多用户网络中,两个或多个用户能够在不泄漏各自私有输入信息时协作执行某项计算任务。这个问题首先由A.C.Yao于上世纪80年代初提
智能家居系统本质是家庭集成自动化系统,即通过集成房屋内一些简单的设备遥控操作或是结合网络服务实现被动式的请求响应。近些年来,随着人工智能、网络技术、设备的微型化技
光流场能够反映图像上每个点灰度的变化趋势。光流场计算的可靠性已经成为计算机视觉研究领域面临的一个挑战,变分方法是目前实现光流计算的最成功的方法之一。本文的研究内
以TCP/IP协议为主要协议的Internet网络,正在渗透到人类社会生活的每个角落,已经逐渐成为人类社会的基础设施之一。Internet网络规模不断扩大,异构化程度不断增加,带宽成倍增