基于链接分析的Blog网页排序算法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:sym1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客作为一种个人发布工具,逐渐成为信息时代不可或缺的资源,随着社会网络的高速发展和社会化软件的普及,互联网正逐步跨入社区时代,博客吸引了越来越多的人的目光,数以百万计的用户开始使用Blog发布信息。在博客用户飞速增长的同时,也带来了博客空间的急剧膨胀。因此,以从海量的Blog信息中挖掘到满足用户需求信息为目的的博客搜索技术,日益发展壮大。作为博客搜索最为关键的博客排序算法,更是成为Blog领域的研究热点,得到了广泛的关注。本文在详细分析博客网页的结构特点和功能特性及链接分析相关技术的基础上,主要针对Blog网页区别于传统网页的结构特点,通过将Blog的链接关系进行分类,提出专门应用于Blog网页的排序算法。具体的做法是:首先通过分析Blog结构特点,选择影响Blog排序的特征因素,这些因素包括Trackback、标签、评论等。其次对特征因素进行提取。提取特征时,先进行网页净化,去除噪音网页,然后通过模板匹配的方式提取特征因子。最后,在此基础上使用基于链接分析的Blog排序算法对Blog网页进行排序。在对Blog网页排序时,首先将链接关系进行分类,分为结构型连接Trackback链接和内容链接,即网页内部链接,并分别提出相应的权重计算排序算法,最终的排序算法为二者的结合。对于结构链接,创新性的提出了从Blog作者知名度角度来考察Blog文章的最终排序结果,在最新发布的Blog日志没有或者鲜有链接的情况下,根据作者以往的贡献来评价该日志的排序得分。对于内容链接,在继承传统的PageRank算法的马尔科夫迭代过程的同时,对有相同标签、分类的日志给予了较高的关注,同时兼顾了Blog的时新性,全面考虑了影响Blog排序的因素。经过实验对算法进行测试和分析,表明本文提出的方法,相较之其他博客网页排序算法,极大的提高了排序结果的查询相关性。同时,实验还表明本文算法对反映当前热点查询的效果更为显著。
其他文献
随着计算技术和通信技术的发展,笔记本、PDA、手机等移动设备的便携性和计算能力都得到了很大的提高。将这些设备应用于日常生活以帮助人们提高生活与工作效率成为一种新的需
网格作为一种新兴的基础设施,目的是把地理位置上分散的资源集成起来,通过这种基础设施,用户不需要了解这个基础设施上资源的具体细节就可以使用自己需要的资源,从而实现互联
H.264/AVC(以下简称H.264)是由活动图像专家组和视频编码专家组共同组成的联合视频组JVT制定的新一代国际视频编码标准。预测模式选择和运动估计是H.264标准的关键技术,是视
随着视觉成像设备、计算机网络技术以及移动社交媒体的飞速发展,以图像和视频为主要传播媒介的信息在互联网上呈爆炸式增长。对图像内容的管理和利用的需求也日渐增强,而对图像
Web服务是基于网络的、分布式、自包含、自描述、模块化的应用程序,具有高度的互操作性、跨平台性和松耦合性等特点。随着Web服务研究的不断深入,单个服务越来越难满足用户的
随着关系数据库技术的发展和关键词查询技术的成熟,如何实现关系数据库上的关键词查询这一问题日渐突出,但由于关系数据库采用结构化存储机制,数据被分散存储在关系和元组中,
资源空间模型是一种新的资源管理模型,适应于下一代面向语义、面向知识的智能型网络。分布式资源空间模型是资源空间模型在互联网上的应用,其主要目的是实现海量异构资源的共
随着网络的普及和信息技术的快速发展,近年来,国内许多高校都进行了大规模的校园网络建设,使得校园网内的许多教学软件广泛应用。为了使教学资源更具有开放性,实现教学资源共
WWW技术的迅猛发展为企业和组织提供了良好的契机,同时也产生了大量的Web点击流数据。对Web服务器上的点击流数据进行有效的分析和挖掘能够发现大量潜在有用的信息,能够帮助管
随着智能手机的普及以及微信、微博等社交媒体的迅速发展,图像已经越来越广泛地融入到人们的日常生活当中。一图胜千言,图像在为人们的生活、教育和商业带来便利的同时,也为视觉