论文部分内容阅读
在互联网信息急剧增长的今天,搜索引擎已经成为人们从互联网上检索信息的重要工具。但是,随着行业细化不断深入,不同专业领域的搜索需求千差万别,通用的搜索引擎很难满足所有领域的搜索需求,因此一种在传统搜索引擎上成长的新的搜索工具应运而生——主题搜索引擎。相比较通用搜索引擎来说,主题搜索引擎对行业信息具有更好的覆盖率和更高的准确性,能够完善的覆盖本专业的相关信息。同时,海量的数据信息也使得分布式计算成为必然,虽然造成系统更大的开销和设计的复杂性,但是它带来的高效信息采集和检索效率也是不容置疑的。其中,Hadoop框架是目前比较流行的一个分布式计算框架。 本文结合现有的主题搜索引擎技术,对主题搜索引擎技术做了进一步的深入研究,设计并实现了一个基于Hadoop框架的面向电力行业的主题搜索引擎。本系统主要由抓取模块、索引模块和检索模块构成。 抓取模块即主题爬虫的实现部分,主要对传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算;又针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略。 索引模块对Lucene全文检索系统中索引模块进行了改进,提出了一种面向电网领域的基于扩展词典的混合索引技术。同时,对索引性能从索引压缩和内存缓冲两个方面进行了优化,并最终在Lucene上进行了实现。 最后,主要阐述了检索模块中设计基于Lucene的查询器的关键技术。