Web新页面推荐技术及其在搜索引擎中的实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:fylnn125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,作为网络信息查询最有效工具的搜索引擎越来越重要。理想的搜索引擎应该按照网页质量(page quality)把搜索结果推荐给用户,然而网页质量是一个难以操纵的概念,于是搜索引擎只能使用网页流行度(pagepopularity)的概念进行近似。然而,网页流行度需要一个成长过程,对于一个新页面,它的流行度是从无到有慢慢成长,经过一个累积过程,直到该页面成熟后其流行度才与自身质量趋于一致。这种成长过程随着搜索引擎使用的普及变得越来越漫长。互联网用户使用搜索引擎查询信息时,动辄就是成千上万的返回结果。由于用户通常只关注排名靠前的结果,这就加剧了对新页面的不公平:处于成长期的新页面由于Popularity不够高而排名靠后,于是得不到应有的关注;由于得不到应有的关注,进而使得其成长周期变得更长。 如果说搜索引擎使用Page popularity进行推荐排名对于成熟网页还算公平的话,那么对于新网页的处理则严重损害了搜索引擎信息推荐的公平性。为了解决这个问题,本文探讨对新页面进行某种程度的“补偿性推荐”,作为搜索引擎使用Page-popularity排名技术的补充。本文从观察研究新页面的出现特点、成长规律出发,对搜索引擎查询结果中新页面的推荐比例、被推荐页面的选择方案、返回结果的展示方法等问题进行了探讨,提出了一种依据新页面的相对排名进行概率推荐的方案。为了验证这种推荐方案的效果,我们参考商业搜索引擎的模式和Web页面的演变规律搭建了一个模拟搜索系统,在这个系统中实现了我们的推荐技术,并对各种情况下的用户使用情况进行了统计和分析。实验结果表明,我们的推荐方案不仅使新页面有更多机会被用户及时认知,有效促进了新页面的成长,同时也为用户提供了更多有价值的查询结果,提高了用户满意度。
其他文献
适宜的抽穗期是保证作物高产稳产的重要前提,因此挖掘抽穗期相关基因并对其功能进行解析,不但可以为培育具有适应不同生态环境的小麦新品种提供候选基因,而且可以增加对小麦抽穗
机器人技术汇集了当今世界在计算机、机电、材料、传感器、控制技术等多个学科领域的尖端技术,尤其是类人形机器人,因其具有类人的外形和步行方式及其广泛的社会应用前景和多学
最近,基于IEEE 802.11的无线局域网被广泛应用,而且将越来越流行。各种便携移动通信终端如手机、PDA、笔记本等的日益普及。人们在日常生活和商务活动中,越发渴望以任意的移动方
无线移动自组网(Ad Hoc)是由一组带有无线通信收发装置的移动节点组成的一个多跳、临时、自组织,可以在任何时候、任何地点快速构建的移动通信网络。Ad Hoc网络中的每个节点可
妊娠高血压综合征(妊高征)是一种常见的妊娠并发症,大约影响到5-10%的孕妇,仍然是妇产科导致孕产妇和胎儿/新生儿发病和死亡的主要原因。尽管进行了广泛的研究,引起妊高征的病因学
稻褐飞虱[Nilavarpata lugens(st(?)l)]是亚洲水稻的最重要的害虫之一。在我国,每年遭受稻褐飞虱为害的水稻面积达2~3亿亩,年损失稻谷10~15亿公斤。对于该虫不同生物型之间的差异
科学技术的飞速发展,特别是微电子技术、计算机技术及信息处理技术的发展,人们对信息资源的需求日益增长,作为获取信息的传感技术及传感器愈来愈受到人们的重视。微波传感器是继
互联网业务的迅猛发展以及各种新业务的不断涌现,使得人们对网络带宽的需求大幅度增加,传统的接入网成为整个传输网络中的“瓶颈”。基于以太网(Ethernet)和PON技术的以太网
本文对GPRS技术在虚拟仪器中的应用进行了研究。文章主要探讨了GPRS的网络单元和传输协议及数据传送过程,然后选择了能满足需要的GPRS模块,并掌握了GPRS 模块的工作原理和外围
细胞核基质以及核基质蛋白在细胞生命活动中起着重要的作用,本研究以肿瘤细胞核基质为研究对象,通过高分辨率双向凝胶电泳分离分析及MALDI-TOF-MS肽指纹(PMF)鉴定技术结合蛋白