论文部分内容阅读
随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人类最重要的海量信源,“信息迷航”和“信息过载”己经成为人们获取信息资源日益严重的问题。基于Internet的各类搜索引擎应运而生并得到了迅速发展。Yahoo、Baidu、Google等通用搜索引擎功能虽然非常强大,但它们不能对结构化数据作精确的检索。主题搜索引擎是一种对结构化数据进行精确检索的搜索引擎,用户体验更加人性化。随着信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文对它的主要技术进行研究并实现了一个主题搜索引擎原型系统。分析了网络爬虫抓取的基本原理、策略以及相关度算法(PageRank、Hits);考虑PageRank值的因素,提出了改进Shark算法的新思路,既保证了网页与主题领域知识的相关度,又顾及到网页的重要性。剖析了全文检索包Lucene,探讨Lucene中使用的向量空间模型,分析了Lucene索引文件的的结构和文档评分算法;解析了Lucene中使用的倒排索引技术,对如何提高Lucene索引性能进行了探讨;分析了Lucene文档评分算法,通过实例探讨了各因素对文档得分的影响;分析了Lucene、Heritrix的部分核心代码。结合本文的实际需要,扩展了Heritrix的FrontierSchedular,设计了URL选择策略,实现了主题网页精确抓取;使用定则表达式和HtmlParser软件包设计了手机信息的精确抽取模板;根据网页消重基本原理,设计并实现了网页消重类;利用JE扩展了Lucene的分词模块,弥补了Lucene中文分词模块按字分词的不足。通过主题搜索引擎的主要技术的研究,设计并实现了一个手机产品信息搜索引擎原形系统。在开发此原型系统过程中,选择了扩展性好的Heritrix抓取主题信息;使用Lucene对主题网页信息建立索引库以及对主题知识库的检索;选用Spring和DWR技术开发用户查询接口。通过对本原型系统的检索性能测试,有较好的召回率和准确率,基本达到本课题预期目标。