论文部分内容阅读
现代互联网技术迅猛发展,在人们的日常生活和工作中网络的作用日益凸显,尤其随着企业、校园等局域网(LAN)内部信息量的增加,人们发现准确高效的获取局域网内的相关信息变得困难,所以如何从海量的网络信息中,提取出潜在的、有价值的信息,使之为人们高效地服务,成为了现代信息检索研究的一个很重要的课题。搜索引擎技术的诞生,解决了用户所遇到检索信息的麻烦。 搜索引擎中查询排序技术,直接影响着用户。目前尽管己经有百度等通用搜索引擎,可是它们的排序效果不是很好。首先,它们的覆盖率很低,多数校园、企业信息不能完全抓取;其次,广告的植入影响了最终的排序,使得排序具有了“商业性”。所以,搭建校园、企业等局域网搜索引擎显得尤为重要。这样,能够提供给查询者一个公平的排序结果。 本课题首先介绍了搜索引擎的相关内容;其次讲述了搜索引擎的基本工作原理和开源搜索引擎Nutch的工作流程;接着对经典的排序模型和排序算法进行了研究,为后续排序算法的研究和改进奠定了基础;然后在Nutch基础上搭建了校园网搜索引擎系统,通过对网页抓取入口地址的控制来抓取校园网页,利用极易分词并结合校园搜索的特点改进了Nutch中文分词;最后分别从基于超链接分析的网页权威性和基于内容分析的网页内容相关性两方面对排序算法进行改进,并在基础平台上实现了改进的排序算法。 最后,采用了TopN查准率对比法和排序效果评估法,对改进的分词和排序算法进行测试。通过实验数据分析得出,改进后的算法在查准率、排序等方面较先前的算法有很大的提高。