基于兴趣度的Web日志用户访问序列模式挖掘

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:netxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和因特网的迅速发展,网络已经成为人们进行交流和相互联系的有效平台,它存储了大量的信息、数据。由于信息量的庞大,对于网络用户来说,如何能够及时地发现和利用有用的信息,则变得越来越困难。对于网站管理者来说,怎样合理地组织网站的布局,提高网站的点击率,也显得相当有难度。  为了更好地解决上述相关问题,势必将数据挖掘技术应用于互联网,因此,形成了一个新的研究领域——web挖掘(Web Mining)。Web挖掘通常分为三类,包括Web内容挖掘,Web结构挖掘和Web使用挖掘。Web使用挖掘是其中重要的应用研究方向之一,其目的是找出网站用户的访问模式,找出用户感兴趣的浏览方式,对优化站点结构和为用户提供个性化服务具有重要的意义。  本文主要研究的是基于兴趣度的Web日志用户访问序列模式挖掘,针对当前挖掘用户访问序列模式算法仅仅将频繁访问路径作为用户浏览兴趣路径的问题,改进了WAP-mine算法,命名为基于兴趣度的Web日志用户访问序列模式挖掘算法BIWAP-mine(Web Access Pattern mining based on User Traversal Interest)。本文提出了访问序列上用户浏览兴趣度的定义,综合考虑了页面访问次数、浏览时间、页面信息量大小和带宽来定义用户兴趣度,并将此兴趣度用于改进WAP-mine算法。最后结合具体的实例,对算法进行了验证。结果表明该算法是有效的,在挖掘用户浏览兴趣路径方面比当前流行的WAP-mine挖掘算法更准确,并具有较好的执行效率。
其他文献
随着文明的发展,知识的普及,需要存储和传播的信息量越来越大,信息的种类和形式也越来越丰富,以纸本为基础,借阅为手段的传统图书馆服务机制显然不能满足读者的需要。更由于
随着互联网的高速发展,快餐文化越来越普及。互联网上大量的信息越来越多的以短文本的形式出现,搜索引擎的返回结果和微博等都是这种形式的信息的代表。尤其是微博,在最近的
随着银行自动化建设的迅猛发展,ATM自动取款机在人们的日常生活中扮演的角色也越来越重要。但是,由于ATM机具有露天、无人值守的特点,由使用ATM机而引发的顾客与银行的财产纠
聚类算法是一种无监督的算法。它是一种将分散着的数据对象划分到相应的类当中的过程。在聚类之后,同一个类当中的数据对象及其相似的,相反,在不同类当中的数据对象则尽可能
无线频谱是无线网络中最珍贵的资源之一,随着无线网络的发展,未授权频谱资源越来越拥挤,而授权频谱的利用率却相对较低,为提高授权频谱的利用率,提出了认知无线电网络(CRN)。
互联网的域间路由系统使用边界网关协议BGP在不同自治系统之间传递路由可达性信息。作为BGP协议的一部分,内部网关协议iBGP用于在单个自治系统内部的路由器之间传播自治系统之
作为一类主要的组合优化问题,车辆路径问题(VRP)一直受到了计算机科学和运筹学界的广泛关注,在实际工业生产调度中发挥了重要的作用。然而随着交通线路的日趋复杂化以及客户
目前,获取图像的方法越来越丰富,得到图像的数量也在不断增多,近几年数字图像处理方面的研究工作受到了大量学者的关注,一些图像处理的基础研究工作也随之变得重要起来。在很
随着全球信息数字化进程的日益加快,二值图像因其存储简单、结构紧凑的优势得到广泛应用,许多重要资料以二值图像格式保存,所以研究二值图像中的信息隐藏对于信息安全和产权
传统的并行计算任务往往由大型的并行计算机来完成,因而并行机的研究也就成为并行计算的主要研究方向。随着经济和科技的发展,生物医学、天气预报、高能物理等领域的计算任务