论文部分内容阅读
博客作为一种个人发布工具,逐渐成为信息时代不可或缺的资源,随着社会网络的高速发展和社会化软件的普及,互联网正逐步跨入社区时代,博客吸引了越来越多的人的目光,数以百万计的用户开始使用Blog发布信息。在博客用户飞速增长的同时,也带来了博客空间的急剧膨胀。因此,以从海量的Blog信息中挖掘到满足用户需求信息为目的的博客搜索技术,日益发展壮大。作为博客搜索最为关键的博客排序算法,更是成为Blog领域的研究热点,得到了广泛的关注。本文在详细分析博客网页的结构特点和功能特性及链接分析相关技术的基础上,主要针对Blog网页区别于传统网页的结构特点,通过将Blog的链接关系进行分类,提出专门应用于Blog网页的排序算法。具体的做法是:首先通过分析Blog结构特点,选择影响Blog排序的特征因素,这些因素包括Trackback、标签、评论等。其次对特征因素进行提取。提取特征时,先进行网页净化,去除噪音网页,然后通过模板匹配的方式提取特征因子。最后,在此基础上使用基于链接分析的Blog排序算法对Blog网页进行排序。在对Blog网页排序时,首先将链接关系进行分类,分为结构型连接Trackback链接和内容链接,即网页内部链接,并分别提出相应的权重计算排序算法,最终的排序算法为二者的结合。对于结构链接,创新性的提出了从Blog作者知名度角度来考察Blog文章的最终排序结果,在最新发布的Blog日志没有或者鲜有链接的情况下,根据作者以往的贡献来评价该日志的排序得分。对于内容链接,在继承传统的PageRank算法的马尔科夫迭代过程的同时,对有相同标签、分类的日志给予了较高的关注,同时兼顾了Blog的时新性,全面考虑了影响Blog排序的因素。经过实验对算法进行测试和分析,表明本文提出的方法,相较之其他博客网页排序算法,极大的提高了排序结果的查询相关性。同时,实验还表明本文算法对反映当前热点查询的效果更为显著。