基于Web日志的用户偏爱浏览路径研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gaods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术、储存技术和计算能力的发展,越来越多的商业活动通过网络平台实现,网站在日常运营中积累了大量的用户点击流数据,为我们提供了很好的机会去分析和挖掘有价值的信息。本文将数据应用于挖掘用户的偏爱浏览路径,重构页面间的链接关系,优化网站提高用户访问体验,最终取得更好的市场竞争力。目前挖掘用户偏爱浏览路径比较好的算法有频繁偏爱路径法、页面价值-跳转偏爱度法、支持-兴趣度法等。频繁偏爱路径法将用户的浏览频度作为主要参考因素,忽略了用户的浏览兴趣。页面价值-跳转偏爱度法虽然将用户的浏览兴趣作为主要参考因素,但是在实际应用中对数据的要求很高。支持-兴趣度法虽然将用户的浏览兴趣作为主要参考因素且对数据要求不高,但是挖掘出的浏览路径没有过滤掉网站的主干路径。因此,本文提出权重矩阵与有效偏爱度算法改进了支持-兴趣度算法,削弱了主干路径对挖掘结果的影响。本文主要研究工作如下:(1)概述Web挖掘内容和发展现状,通过分析网站存在的问题得出挖掘用户偏爱浏览路径的现实意义。本文总结了当前挖掘用户偏爱浏览路径比较好的算法,得出其主要问题是算法在准确度、复杂度和运行效率上难以平衡。(2)针对Web日志原始数据不能直接用于挖掘用户偏爱浏览路径的问题,引入Web日志数据预处理方法。该方法删除了原始数据中与挖掘目的无关的属性和记录,并进行会话识别处理,找出用户的浏览序列。(3)针对挖掘用户偏爱浏览路径的核心问题,本文提出权重矩阵与有效偏爱度算法,通过对站点拓扑结构图加权,改进了基于支持-兴趣度算法挖掘用户的偏爱浏览路径,避免挖掘出站点拓扑结构图的主干路径。通过实例分析说明改进后的算法有效可行,并且结果比改进前的算法更能反映用户的真实浏览兴趣。(4)使用搜狗网的Web日志进行实验,结果说明改进后的算法过滤掉了主干路径,并且结果精确度比改进前高,但是引入权重矩阵使得算法执行时间比改进前高,即改进后的算法是以时间换取精确度。
其他文献
目的:研究回顾性质控数据分析在婴儿培养箱风险管理中的应用,降低婴儿培养箱使用风险。方法:用鱼骨图分析法对影响婴儿培养箱合格率的因素进行分析,然后运用数据统计学方法对
小学信息技术课程在当前素质教育背景下显得尤为重要。小学信息技术课程有基础性、综合性和工具性等特点,因此,在小学教育教学中加强对小学生信息技能和信息素养的培养是不可或
课堂教学是中学信息技术课程教学的一种主要方式,上好每堂课是提高教学质量和实施素质教育的关键。在课堂教学中,教师起主导作用,以学生为主体,调动学生的积极性,恰到好处地提问,在
介绍了新一代图像压缩标准JPEG2000及其关键技术,在介绍图像编码和解码系统的基础上,进一步讨论在嵌入式平台Ti公司的TMS320C6711 DSK上的实现,讨论了整个系统的性能优化.
中职语文既是一门基础文化课,也是德育教育的主阵地。中职语文教学大纲教学目标中明确规定:“培养学生热爱祖国语言文字的思想感情.使学生进一步提高正确理解与运用祖国语言文字
现金股利政策是企业对其获得的利润进行分配的方法之一,是一种财务管理方式,不仅仅均衡了企业的发展,也为股东带来了回报。适宜的现金股利政策可以对企业的未来发展、股东的权益以及投资者的投资信心带来积极的影响。当现金股利分配水平比较低甚至不进行分配时,会影响股东以及投资者的积极性,从而对股票的市价产生一定的影响。而当现金股利分配水平过高时,又会使得企业留存较少的净利润,从而削减了其经营以及再投资的筹码,不
从2017年9月21日教育部公布'双一流'建设大学名单至今,过去整整一年了,中国一流大学的发展势头到底如何?建设成效怎么样?我们试图用年度发展指数来衡量。最近,杭州电
期刊
陪伴,是一种力量。在这个世界上,没有人是一座孤岛。失去了陪伴,也就失去了生存的意义。孤独迷茫时,家人的一个拥抱就能拨开乌云,为我们照亮前行的路。开心喜悦时,身旁伙伴们
从动力配置、编组、车厢结构和布局、车体材料和结构、速度和平稳性、电磁兼容性6个方面分析了新型高速动车组为卫生列车提供了平台保证,阐述了高速铁路网和“一带一路”铁路
我所在的地区,相当一部分学生对于语文学习缺乏主动性,特别是那些在语文学习上下了功夫、花了力气,但是学习效果总是不够理想的,因而对学习语文失去了兴趣。那么,语文教师应该怎样