论文部分内容阅读
随着互联网技术的飞速发展,互联网络上的信息量正在以几何级数的增长速度增长,因此,对网络上信息的高效检索成为互联网发展必须要解决的问题,搜索引擎技术得到了特别的重视并且正在飞速的发展。目前,如Google、Baidu等综合型搜索引擎系统已经取得了极大的成功,但是,当使用综合型搜索引擎来检索专业内容时,往往找不到专家们需要的内容。因此,有必要研究并开发面向特定领域的面向特定领域搜索引擎系统来满足某一领域信息检索的需要。该文研究并设计了一个具有通用性的面向特定领域搜索引擎,若想改变应用领域,则只需修改领域词汇的词库文件。为了实现该面向特定领域搜索引擎系统,该文引入了综合型搜索引擎系统的架构模型,即网络蜘蛛、索引器和检索器,并且在该模型中增加了中文分词模块,信息过滤模块。该搜索引擎系统基于开源搜索系统Nutch和全文索引引擎Apache Lucene构建。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Nutch和Lucene的大量源码,并在此基础上做了改进和扩充。该文介绍了系统集成方案,并且详细讲解了中文分词器、信息过滤器、信息检索器以及用户接口的设计和实现技术,重点讨论了中文分词部分应用的正向最大匹配分词与逆向最大匹配分词相结合的分词算法。最后,该文介绍了该面向特定领域搜索引擎的相关性能数据以及实验验证结果。该文所设计的面向特定领域搜索引擎与现有的主流搜索引擎的主要不同体现在:首先是其面向领域的特性,其次是应用领域可定制的特性。相信该搜索引擎能为需要特定领域搜索的专家学者提供很大的方便和帮助。