论文部分内容阅读
随着Web2.0的应用,博客的传播速度得到了前所未有的发展,使其拥有巨大的信息资源。在数目如此庞大的博客系统中,用户想要找到自己最感兴趣的博客或博文,同时博主也想使自己的博客得到更高的访问量,就显得非常困难。博客搜索引擎的问世在一定程度上解决了这个问题,但是由于技术上以及对用户要求上的原因,不能真正满足用户的需求。本文研究了目前常用的推荐算法,并对博主的社会信息和博文信息进行分析,基于现有的技术设计了一种基于相似性的博客推荐算法,从博客的博文和博主的社会信息两方面的相似性来计算研究博客的相似度。本文在算法设计之前先介绍了博客的博文相似性和博主社会信息相似性的概念,并阐述了采用相似性方法的优点。构造了博主社会信息相似度和博文信息相似度的计算公式,并把二者进行了综合来计算总的相似度,对相似性权重值的确定采用线性结合法,并结合参考文献的内容确定其大小。实验部分采用开源爬虫工具(Heritrix)从新浪网上抓取相关的博客作为实验性数据,并对抓取回来的数据进行处理,然后将相关的数据信息存储到数据库中。对于改进的算法通过两种评价标准进行评估:一种是和文本算法对比准确率,这种方法适合于计算机进行自动测评;另一种是通过人工参与的方法,对推荐的博客与目标博客相似与否进行判定。通过对实验结果进行对比与分析,证明了改进算法的有效性,为博客推荐提供了技术支持。