校园搜索引擎页面排序的研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:liongliong497
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代互联网技术迅猛发展,在人们的日常生活和工作中网络的作用日益凸显,尤其随着企业、校园等局域网(LAN)内部信息量的增加,人们发现准确高效的获取局域网内的相关信息变得困难,所以如何从海量的网络信息中,提取出潜在的、有价值的信息,使之为人们高效地服务,成为了现代信息检索研究的一个很重要的课题。搜索引擎技术的诞生,解决了用户所遇到检索信息的麻烦。  搜索引擎中查询排序技术,直接影响着用户。目前尽管己经有百度等通用搜索引擎,可是它们的排序效果不是很好。首先,它们的覆盖率很低,多数校园、企业信息不能完全抓取;其次,广告的植入影响了最终的排序,使得排序具有了“商业性”。所以,搭建校园、企业等局域网搜索引擎显得尤为重要。这样,能够提供给查询者一个公平的排序结果。  本课题首先介绍了搜索引擎的相关内容;其次讲述了搜索引擎的基本工作原理和开源搜索引擎Nutch的工作流程;接着对经典的排序模型和排序算法进行了研究,为后续排序算法的研究和改进奠定了基础;然后在Nutch基础上搭建了校园网搜索引擎系统,通过对网页抓取入口地址的控制来抓取校园网页,利用极易分词并结合校园搜索的特点改进了Nutch中文分词;最后分别从基于超链接分析的网页权威性和基于内容分析的网页内容相关性两方面对排序算法进行改进,并在基础平台上实现了改进的排序算法。  最后,采用了TopN查准率对比法和排序效果评估法,对改进的分词和排序算法进行测试。通过实验数据分析得出,改进后的算法在查准率、排序等方面较先前的算法有很大的提高。
其他文献
Pac-Man是一款风靡世界的追逐躲避类游戏,其中的非玩家角色(一般称为NPC,即Non-Player Character)Ghost是由脚本控制的,而脚本控制的NPC通常存在着行为单一的缺点。使用进化神经网
动漫产业有着广阔的发展前景,被称为21世纪创意经济中最有希望的朝阳产业和21世纪的“无烟工业”。对于大规模场景和角色设计而言,传统意义上的单机操作会产生大量的人力、物力
“信息孤岛”的产生极大降低了信息系统间的合作效率,解决该问题的核心在于历史数据的集成,数据迁移作为数据集成的关键组成部分,占有十分重要的地位。但现有的数据迁移解决方案
数据挖掘一直是一个非常活跃的研究领域,其成果被广泛应用于经济,管理等领域,有力的促进了人类社会的发展,给经济和社会的发展带来了巨大的效益。关联规则数据挖掘是数据挖掘研究
WSN (Wireless Sensor Network,无线传感器网络)中的节点如何部署、如何调度,对整个网络的健壮性、可靠性以及生存时间都起到关键性的影响。所以WSN的覆盖问题是当前的研究热
行业环境的瞬息万变为企业带来了新的创建或破坏价值的可能性,企业信息化领域如何快速重构已经成为重要的一个议题。业内已有诸如TOGAF、Zachman等著名的企业架构框架,为企业信
目前,随着城市化进程的快速发展,人口的大量增加,城市交通问题特别是交通阻塞问题变得日益严峻,智能交通系统也越来越受到大家的广泛重视,已成为世界交通系统的发展趋势。智
进入新世纪以来,随着“数字地球”、地理信息系统等地理信息载体的研究兴起,使得对地理信息的表达由二维形式变成了三维形式。地形建模作为上述地理信息载体的基础技术,对它的研
随着网络在民用和军用领域的普及应用,如何对网络进行性能测试已经成为一个重要的研究课题,其中关键技术之一是如何对测试结果进行有效的自动化处理。在复杂测试场景中,由于测试
电子游戏是当今一种非常风靡的娱乐方式。电子游戏技术的发展往往伴随着计算机技术水平的不断更新。在以往的几年内,游戏中震撼的音效、精致的画面是吸引游戏玩家的重要因素,玩