校园搜索引擎页面排序的研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户：liongliong497

【摘要】

：

现代互联网技术迅猛发展，在人们的日常生活和工作中网络的作用日益凸显，尤其随着企业、校园等局域网(LAN)内部信息量的增加，人们发现准确高效的获取局域网内的相关信息变得困难，

【作者】

：

宫伟

【机构】

：

内蒙古科技大学

【出处】

：

内蒙古科技大学

【发表日期】

：

2012年期

【关键词】

：

校园搜索引擎页面排序 Nutch中文分词工作流程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现代互联网技术迅猛发展，在人们的日常生活和工作中网络的作用日益凸显，尤其随着企业、校园等局域网(LAN)内部信息量的增加，人们发现准确高效的获取局域网内的相关信息变得困难，所以如何从海量的网络信息中，提取出潜在的、有价值的信息，使之为人们高效地服务，成为了现代信息检索研究的一个很重要的课题。搜索引擎技术的诞生，解决了用户所遇到检索信息的麻烦。　　搜索引擎中查询排序技术，直接影响着用户。目前尽管己经有百度等通用搜索引擎，可是它们的排序效果不是很好。首先，它们的覆盖率很低，多数校园、企业信息不能完全抓取；其次，广告的植入影响了最终的排序，使得排序具有了“商业性”。所以，搭建校园、企业等局域网搜索引擎显得尤为重要。这样，能够提供给查询者一个公平的排序结果。　　本课题首先介绍了搜索引擎的相关内容；其次讲述了搜索引擎的基本工作原理和开源搜索引擎Nutch的工作流程；接着对经典的排序模型和排序算法进行了研究，为后续排序算法的研究和改进奠定了基础；然后在Nutch基础上搭建了校园网搜索引擎系统，通过对网页抓取入口地址的控制来抓取校园网页，利用极易分词并结合校园搜索的特点改进了Nutch中文分词；最后分别从基于超链接分析的网页权威性和基于内容分析的网页内容相关性两方面对排序算法进行改进，并在基础平台上实现了改进的排序算法。　　最后，采用了TopN查准率对比法和排序效果评估法，对改进的分词和排序算法进行测试。通过实验数据分析得出，改进后的算法在查准率、排序等方面较先前的算法有很大的提高。

其他文献

Pac-Man游戏中NPC的进化神经网络学习方法

Pac-Man是一款风靡世界的追逐躲避类游戏，其中的非玩家角色（一般称为NPC，即Non-Player Character）Ghost是由脚本控制的，而脚本控制的NPC通常存在着行为单一的缺点。使用进化神经网

学位

Pac-Man游戏智能非玩家角色进化神经网络适应度函数

MAYA协同设计系统中冲突控制策略的研究

动漫产业有着广阔的发展前景，被称为21世纪创意经济中最有希望的朝阳产业和21世纪的“无烟工业”。对于大规模场景和角色设计而言，传统意义上的单机操作会产生大量的人力、物力

学位

Maya协同设计并发控制Mel造型指令序列角色令牌环机制

消息模型在数据迁移中的应用研究

“信息孤岛”的产生极大降低了信息系统间的合作效率，解决该问题的核心在于历史数据的集成，数据迁移作为数据集成的关键组成部分，占有十分重要的地位。但现有的数据迁移解决方案

学位

数据迁移JMS消息模型Darwin推送式数据迁移订阅式数据迁移

基于粒子群优化算法的数据挖掘研究与应用

数据挖掘一直是一个非常活跃的研究领域，其成果被广泛应用于经济，管理等领域，有力的促进了人类社会的发展，给经济和社会的发展带来了巨大的效益。关联规则数据挖掘是数据挖掘研究

学位

数据挖掘PSO算法关联规则频繁项集

基于混合感知模型的覆盖算法研究

WSN (Wireless Sensor Network,无线传感器网络)中的节点如何部署、如何调度,对整个网络的健壮性、可靠性以及生存时间都起到关键性的影响。所以WSN的覆盖问题是当前的研究热

学位

WSN混合感知模型随机覆盖K覆盖覆盖度

领域化业务构件的描述体系研究和实现

行业环境的瞬息万变为企业带来了新的创建或破坏价值的可能性，企业信息化领域如何快速重构已经成为重要的一个议题。业内已有诸如TOGAF、Zachman等著名的企业架构框架，为企业信

学位

领域化业务构件构件化开发架构模型XML

基于图像分类的车型识别方法研究和实现

目前,随着城市化进程的快速发展,人口的大量增加,城市交通问题特别是交通阻塞问题变得日益严峻,智能交通系统也越来越受到大家的广泛重视,已成为世界交通系统的发展趋势。智

学位

车型识别支持向量机稀疏编码图像分类直方图交集核智能交通系统词袋模型

基于DEM的三维地形建模方法的研究与设计

进入新世纪以来，随着“数字地球”、地理信息系统等地理信息载体的研究兴起，使得对地理信息的表达由二维形式变成了三维形式。地形建模作为上述地理信息载体的基础技术，对它的研

学位

三角网OpenGL技术VC6.0平台三维地形建模方法数字高程模型

基于专家系统的网络测试结果智能处理方法的研究与实现

随着网络在民用和军用领域的普及应用，如何对网络进行性能测试已经成为一个重要的研究课题，其中关键技术之一是如何对测试结果进行有效的自动化处理。在复杂测试场景中，由于测试

学位

专家系统知识表示XML智能处理

游戏地图中分层路径搜索与地图复杂性度量研究

电子游戏是当今一种非常风靡的娱乐方式。电子游戏技术的发展往往伴随着计算机技术水平的不断更新。在以往的几年内，游戏中震撼的音效、精致的画面是吸引游戏玩家的重要因素，玩

学位

人工智能路径搜索最小矩形地图复杂度

校园搜索引擎页面排序的研究

与本文相关的学术论文