基于用户Web访问日志聚类的推荐算法研究与应用

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:fh1130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网飞速发展,网络中交互的数据量越来越大,种类越来越多。面对数以亿计的数据,互联网用户面临的问题是如何从中找到自己感兴趣的数据,而对于网站运营者来讲应该考虑的是如何在以几何级别的增长速度的网络数据中,搜索挖掘出用户感兴趣、对用户有用的数据并推荐给用户。在大数据的环境下通过简单的人为筛选已经无法完成上述任务了,将互联网与数据挖掘结合起来是一个解决这个问题的很好的办法。而对于用户来讲,互联网中可以供自己选择的资源五花八门,用户需要一种技术能够读懂并且明白自己的兴趣爱好,以及对用户未来的喜好进行适当的预测。鉴于以上两种需求,本文以互联网用户的访问日志作为数据源,对用户的日志数据处理后,在数据挖掘和推荐算法的理论基础上,改进了基于改进Hamming距离的聚类算法和基于对数似然比的协同过滤推荐算法的推荐应用模式。主要包括两个过程:首先通过聚类算法找到与目标用户具有相似兴趣的用户群,其次在目标所在的类群众通过Top-N算法,找出N个与目标用户最近邻的用户,然后根据这些用户的访问日志等上下文信息为目标用户推荐合适的网络资源。用户的访问日志数据极其容易获得,只要用户根据自己的兴趣爱好浏览网页,就可以产生推荐数据源,其次一般来讲用户在一个时间段内的兴趣是不会发生太大变化的,因此将用户聚类后可以采取离线实验,不需要实时计算减少了计算规模。通过聚类再推荐可以过滤掉很多兴趣不同的用户,可以提高推荐的效率和准确率。在上述的研究基础上,在最后的应用研究中本文还与其他的聚类和推荐算法在效率和准确率等方面进行了比较。
其他文献
第1期  新时代高等教育科学研究的使命担当   ——著名教育家潘懋元先生访谈录  /访谈整理:余小波 蒋家琼 李震声  重新认识高等教育研究的存在价值   ——兼论大学治理中的经验与科学 邬大光  “双一流”建设背景下的高校分类分层建设和特色发展  /张应强 周钦  一流大学建设背景下高等教育竞争的新样态及其反思  /刘信阳 苌光锤  国家治理视野下的高等教育治理变迁  ——高等教育治理的变与
期刊
开放教育资源运动在美国经历了数十年的变迁与发展,如今在美国社区学院中出现了完全替代传统教科书而同样进行学位教育的开放教育资源学位项目。开放教育资源学位在降低学生
采用CFD软件对某75 t/h燃煤型循环流化床锅炉SNCR+SCR联合脱硝的速度场、浓度场、温度场进行了数值模拟,比较了SCR部分优化前后的速度分布、浓度分布,并重点研究了SNCR部分还
流化床反应器因其优良的性能而广泛应用于化工、石油、冶金、农业和环保等诸多领域。传统的过程研究与设计方法需要耗费大量的人力和物力,且产业化周期较长。多相流CFD方法很
为对矿用变频器的控制提出更高的要求,对三相三电平整流器在三相不平衡的情况下进行了分析研究,主要通过数学分析建立了三电平PWM整流器在dq坐标系中的数学模型。要给出控制
教材的二度开发是教师对教材的再加工和再创造的过程。既是教材本身的需要,也是教学效果的需要,更是学生学习的需要。如何在小学竖笛教学中合理地、有效地进行教材二度开发呢