论文部分内容阅读
随着互联网技术的急速发展,网上的信息资源也呈现出爆炸式增长,这种信息的增长体现在互联网的各个领域,尤其是在教育领域。互联网为广大网民提供了丰富的网上学习资源以及教学资源。我们可以很方便的对这些资源进行访问和下载,但是,如何准确即时的找到自己所需要的教育资源也成为当今社会所面临的一个重要问题。传统的搜索引擎查询结果数量巨大,用户很难在其中找到自己所需要的专业性很强的资源。随着垂直搜索引擎的出现,这种情况得到了较大的改善。垂直搜索引擎是相对通用搜索引擎的查询不准确、深度不够等局限性提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。本文在研究了大量的搜索引擎技术的情况下,采用Lucene作为底层包,开发出了一个基于教育领域的垂直搜索引擎,论文首先对垂直搜索引擎的产生背景及国内外的发展状况作了简单的介绍,详细阐述了垂直搜索引擎的主要组成部分,包括主题爬虫、网页资源预处理、中文分词等。并且对Lucene核心模块进行了介绍,包括索引模块和检索模块。然后,通过对搜索引擎关键技术的研究,分析并设计了垂直搜索引擎的系统结构及实现框图。论文的核心内容主要是对主题爬虫进行了研究,现有的主题爬虫算法较著名的是Fish-search和Shark-search算法。通过对其优缺点的分析研究,改进了爬虫算法。并实现了基于Fish-search算法改进的爬虫算法,和基于VSM主题匹配的算法,提高了爬取的效率同时也提高了抓取网页的主题相关性。将抓取的网页进行除噪预处理,来获得网页的文本内容论文最后开发出了基于教育领域的垂直搜索引擎。利用Lucene主要实现了索引模块和检索模块,创建索引文件的过程中采用了一种新的索引方法,即只对关键词和标题内容进行索引。经过实验验证,这种创建索引的方法,能够在很大程度上降低索引文件的大小并且提高了检索的效率。