基于Web日志的用户访问序列模式研究

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:z5748259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络已经成为人们进行信息交流和信息处理的有效平台,它存储着海量的数据。由于庞大的信息量,对于每个用户来说,如何能够及时地发现有用的信息则变得越来越困难。为了解决上述问题,将数据挖掘技术应用于互联网,构成了一个新研究领域——Web挖掘(Web Mining)。Web挖掘通常分为三类,Web使用挖掘是重要的应用研究方向之一,其目的是找出网站用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究了基于Web日志的用户访问序列模式挖掘,为了避免用户访问序列挖掘过程中产生巨大的候选模式,提出了一种新的用户访问序列模式挖掘算法UAP-miner(User Access Pattern mining)。该算法简化了挖掘过程中支持度的计算和候选模式的生成操作。首先使用UAP-tree(user access pattern tree)来记录用户访问序列和它的计数,避免冗长的支持度计算。构造出UAP-tree后,所有剩下的挖掘工作都在UAP-tree上进行,只需要扫描UAP-tree相关的子树,不再需要访问原始的用户访问序列数据库。然后提出一个高效的算法,根据用户当前的访问序列从UAP-tree中发现频繁用户访问模式,该算法在挖掘过程中不会产生任何候选模式,所以具有较好的执行效率。最后结合具体的实例,对算法进行了验证。
其他文献
基于断层图像、点云和多视角图像的三维重建已经成为计算机视觉领域三维重建的主要方法,但是无论采用哪种方法,重建后的曲面都会不可避免地出现噪声或者破损现象,影响后续工
无线传感器网络是由数量较多的传感器节点经由自组织的形式构建而成的一种网络,这些传感器节点具备感知、信息搜集、简单的数据处理以及传输数据的功能,节点之间可进行无线通
Ad hoc网络是由一系列可自由移动的节点所组成的多跳无线网络。Ad hoc网络的众多新特性使其安全问题较传统网络更为突出。密码技术是保障信息安全的主要手段,而密钥管理是密
针对晶体数据的边缘划分问题,引入同调论的思想,从机器学习角度给出了一种同调边缘学习算法。主要包括以下几方面内容:1给出了上同调边缘算法、胞腔同调边缘算法和正则胞腔同
当前IPv4网络正面临着越来越多的问题,特别是地址空间缺乏以及网络安全缺陷等问题,在这种情况下新一代的IPv6网络成为了人们研究的重点。IPv4向IPv6的过渡不可能一蹴而就,在很长
入侵检测系统是用来检测针对计算机系统和网络系统的非法攻击的安全措施。是网络安全防御体系中继防火墙后又一个重要的发展领域,也是网络安全技术中最核心的技术之一。目前,
rootkit是黑客成功入侵系统后用来保持系统的超级用户权限并隐藏痕迹的一种工具。根据rootkit运行的层次可以分为应用层rootkit和内核级rootkit。目前,对应用层的rootkit检测
人脸识别方法和关键技术是当前模式识别和计算机视觉领域的一个研究热点。人脸识别的步骤主要包括人脸检测、特征提取和特征分类。本文主要对人脸特征提取和特征分类进行了深
快速成型(又称3D打印)技术的迅速发展引起了传统制造领域的巨大变革,已成为众多学者和企业的研究热点。掩膜固化方法作为众多快速成型方法的一种,采用光敏树脂作为成型材料,
需求获取是软件系统开发过程中至关重要的一步。典型的软件需求获取方法主要包含传统的需求获取、现代的需求获取等。传统的需求获取技术主要包含问卷调查、访谈、现有文档分