基于交集关系的Web日志挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yc513485587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是将数据挖掘技术应用于Web环境,也就是从Web文档或Web活动中发现和抽取潜在的、有效的、新颖的或用户感兴趣的模式和知识。按不同研究对象可以将Web挖掘分为:Web内容挖掘、Web结构挖掘和Web日志挖掘。通过对Web日志进行挖掘,可以帮助站点管理者发现用户的浏览模式,理解用户的意图和行为;改善Web服务器的性能和设计;提供个性化服务和在电子商务中发现潜在客户群等等。本文在介绍Web日志挖掘的基础上,研究利用交集关系来解决用户频繁访问模式挖掘方面的问题;同时考虑到内容页与导航页的不同,提出目标频繁访问模式这个概念。本文的主要工作如下: (1)详细介绍了Web挖掘的概念、分类、特点以及Web挖掘的应用领域和研究方向。详细论述了Web日志挖掘的概念、研究对象、应用、研究方向以及相关技术等等;同时介绍了基于事务的Web日志挖掘过程的三个阶段:数据预处理阶段、模式发现阶段和模式分析阶段,并重点介绍了一种经典的事务识别算法——最大前向引用(MFR)算法。 (2)论文在类Apriori算法的基础上,提出了基于交集关系的一个发现用户频繁访问模式的算法——GITC算法。通过理论分析和实验验证,该算法可以有效地发现用户频繁访问模式。最小支持度阈值偏小时,该算法性能很好。 (3)鉴于Web日志挖掘中导航页与内容页的不同,提出了目标频繁访问模式这个概念、挖掘目标频繁访问模式的MTFAP算法以及目标频繁访问模式的应用方法。利用目标频繁访问模式,我们可以预测用户浏览页面的意图。 (4)设计并实现了一个Web日志挖掘原型系统。此系统主要包含四个功能模块,这些模块完成了原始日志数据的预处理工作,并且实现了类Apriori算法、GITC算法以及MTFAP算法。最后用实际日志数据对这些算法的性能进行了分析和验证。
其他文献
独立分量分析(Independent Component Analysis, ICA)是在源信号和传输信道等先验知识都未知的情况下,仅根据观测信号的统计特性恢复源信号的方法。其在无线通信、生物医学、
计算机辅助设计因其高效、便捷的特性,已被工程技术人员广泛应用。但是以前的工程图纸大部分采用蓝图、手工绘制的形式,这些图纸是重要的技术资料。这些纸质图纸在保存、检索方
软件衰退现象,即软件系统随时间而出现的状态退化和性能降低、乃至系统崩溃的现象,是影响系统可靠性的一个重要因素。为了减缓软件衰退所带来的危害,一种基于“前摄”的容错技术
随着虚拟现实技术的发展,对虚拟环境沉浸感的要求越来越高,各种高沉浸感的虚拟现实环境(如CAVE系统、投影阵列)相继出现,此时对单个场景的渲染已经不能满足这些虚拟现实环境
水土保持基础信息设施建设,是水土保持科学研究面临的重大科学和技术问题之一,也是国家空间基础设施建设的重要组成部分。本文以黄土高原水土保持专题数据为研究对象,对国家
为了应对快速多变的业务需求,越来越多的公司、企业倚重于跨组织协作的模式完成自己的业务目标。动态灵活的跨组织协作对应用集成提出了更高的要求。作为一种新兴的、面向Int
压缩感知(Compressed Sensing,CS)是一个新兴的研究课题,CS一般包括三个方面:信号的稀疏表示、观测矩阵和重构算法。其中,CS的必备条件是信号的稀疏表示,CS的关键点是观测矩阵设计
随着计算机、网络和多媒体技术的迅猛发展,数字文本、图像、音频、视频等多媒体产品得到日益普及和广泛应用,但是数字产品容易编辑、复制、存储和通过网络迅速传播等优点也使版
随着计算机和网络技术的不断发展,以及企业信息化建设的不断深入、软硬件资源的升级和各种应用的扩展,异构数据库访问技术已是数据库研究的一个焦点。因此如何利用现有网络资源
随着下一代网络技术的发展,越来越多的嵌入式设备接入互联网,它们对IP地址、移动性提出了更高的要求。目前的IPv4协议只有32位的地址空间,而且移动性方面存在很多缺陷,已经不