论文部分内容阅读
当今互联网飞速发展,网络中交互的数据量越来越大,种类越来越多。面对数以亿计的数据,互联网用户面临的问题是如何从中找到自己感兴趣的数据,而对于网站运营者来讲应该考虑的是如何在以几何级别的增长速度的网络数据中,搜索挖掘出用户感兴趣、对用户有用的数据并推荐给用户。在大数据的环境下通过简单的人为筛选已经无法完成上述任务了,将互联网与数据挖掘结合起来是一个解决这个问题的很好的办法。而对于用户来讲,互联网中可以供自己选择的资源五花八门,用户需要一种技术能够读懂并且明白自己的兴趣爱好,以及对用户未来的喜好进行适当的预测。鉴于以上两种需求,本文以互联网用户的访问日志作为数据源,对用户的日志数据处理后,在数据挖掘和推荐算法的理论基础上,改进了基于改进Hamming距离的聚类算法和基于对数似然比的协同过滤推荐算法的推荐应用模式。主要包括两个过程:首先通过聚类算法找到与目标用户具有相似兴趣的用户群,其次在目标所在的类群众通过Top-N算法,找出N个与目标用户最近邻的用户,然后根据这些用户的访问日志等上下文信息为目标用户推荐合适的网络资源。用户的访问日志数据极其容易获得,只要用户根据自己的兴趣爱好浏览网页,就可以产生推荐数据源,其次一般来讲用户在一个时间段内的兴趣是不会发生太大变化的,因此将用户聚类后可以采取离线实验,不需要实时计算减少了计算规模。通过聚类再推荐可以过滤掉很多兴趣不同的用户,可以提高推荐的效率和准确率。在上述的研究基础上,在最后的应用研究中本文还与其他的聚类和推荐算法在效率和准确率等方面进行了比较。