【摘 要】
:
目前基于链接关系的排序算法在互联网搜索引擎中占据着至关重要的作用。这类算法的提出是以“链接即投票”的假设为前提的。但是随着互联网商业化发展十几年来,这种假设已经
论文部分内容阅读
目前基于链接关系的排序算法在互联网搜索引擎中占据着至关重要的作用。这类算法的提出是以“链接即投票”的假设为前提的。但是随着互联网商业化发展十几年来,这种假设已经不是万能的了。网页与网页之间不再是“投票”的关系,有各种各样其他角色的链接(即噪链)充斥其中,噪链的存在降低了基于链接的排序算法的准确性,如何识别和处理这些噪链是当今国外研究的新热点。本文根据噪链本身的分布特性,提出了一种只基于链接关系就能自动识别和过滤噪链的方法,并进行了详细的真实数据集实验验证,结果表明该方法对噪链的识别和过滤非常有效,而且提高了基于链接关系的排序算法的准确性,我们将P@20(排序前20个结果中的相关结果个数)从平均11.8提高到了16.4。而后,我们进一步把这种方法应用在Web spam的研究上。通过国外公开的公用数据集验证,我们过滤了大多数spam站点,相比一些比较著名的算法来看,我们的方法也非常有竞争力。从而验证了识别和过滤噪链的方法在Web spam研究上应用的可行性。
其他文献
当今世界,伴随着互联网技术的急速发展,网络信息的膨胀速度呈指数增长。各行各业的人们由于互联网而紧密联系在一起,信息共享越来越受到人们的重视。在这样的条件下,搜索引擎
近年来,随着互联网技术的发展和普遍应用,网络越来越影响人们的生产生活方式。由于视频信息具有直观性强、内容丰富等特点,视频传输在网络传输领域占据了越来越重要的地位。
随着计算机技术、通信技术的飞速发展,越来越多的通信网络表现出了复杂的特征,它们在结构上表现为不同时期的多种结构的网络并存,由集中式逐步向分布式发展;在应用上表现为由
目前,研发人员在八位微控制器上进行软件开发采用直接在芯片上运行应用程序,或者在循环结构基础上加入简单中断处理程序的方法。但是,随着八位MCU功能的增强、嵌入式系统开发
近年来,随着互联网技术的发展,社交网络在人们的生活中扮演着重要的角色,它已成为人们生活的一部分,并对人们的信息获取、思考和生活产生不可低估的影响。在社交网络上,每天
本论文分析了以往的嵌入式视频监控系统,从中发现依赖于有线网络的嵌入式视频监控系统不方便安装、视频数据得不到保存、摄像头接口选择不当造成传输速度慢等方面的不足。针
在电信运营市场竞争日益激烈的今天,运行维护能力已经成为电信运营商的核心竞争力之一。通过运行调度系统的合理建设提高运维质量是提高运行维护能力的重要手段。国内某电信
公钥基础设施(PKI)利用数字证书为网络安全交易提供保障。PKI服务的终端实体之间进行交易之前首先要确定通信双方身份的真实性,为此需要验证通信方数字证书的可信性。在验证
我们生活在一个信息时代,语音视频技术在互联网媒体传播和应用方面已渗透到社会的各个角落,其中视频会议、视频点播、远程教育、视频转播等方面的应用空前广泛,极大方便了人
随着科学技术的快速发展,互联网的广泛普及,信息量极大丰富,知识的增长与更新速度日益加快,如何快速获取感兴趣的信息成为人们关注的话题。信息抽取的任务是直接从非结构化/半结