论文部分内容阅读
随着互联网的迅速发展,互联网上的信息呈爆炸式增长。要想在浩瀚的信息海洋中查找到关于某个特定主题的特定的信息越来越困难。通用搜索引擎如Google、baidu等,初步解决了用户在互联网上查询信息的难题。但是,通用搜索引擎面对用户需要的针对某个特定领域的特定信息的查询时,返回的信息少之又少且准确率也很低。要想准确又全面的查询到某个特定领域的信息,必须通过垂直搜索引擎来实现。垂直搜索引擎的出现,正是为了解决通用搜索引擎在查询特定领域信息时的覆盖率过低且准确率不高的问题。本文介绍了搜索引擎的出现及分类,介绍了搜索引擎的发展历史及垂直搜索引擎的研究背景与意义。并介绍了垂直搜索引擎的国内外研究现状。分析了垂直搜索引擎与通用搜索引擎在系统结构、关键技术上的区别。介绍了垂直搜索引擎的优势,并介绍了搜索引擎设计的评价标准。深入研究了垂直搜索引擎的关键技术,包括互联网上网页的分布特征、垂直搜索引擎的主题搜索策略、主题相关度判定、网页信息的结构化抽取等,另外还重点研究了垂直搜索引擎的主要功能模块包括主题初始化模块、网络爬虫模块、信息过滤与网页内容解析模块、中文分词与索引模块、用户接口模块。垂直搜索引擎的准确率、召回率和效率都远远高于通用搜索引擎。最后,本文在设计与实现了垂直搜索引擎的各个功能模块的基础上完成了垂直搜索引擎系统的设计与开发工作。本文所设计与实现的是手机产品的垂直搜索引擎,开发环境是WindowsXP+Eclipse3.6+Tomcat6.0+Mysql5.1+Lucene3.0.2+Heritrix1.14.3。本文的创新点如下:对开源网络爬虫框架Heritrix进行扩展与改进,设计出一个只抓取手机产品信息的网络爬虫。对JE分词工具进行词库的扩充。使词库成为关于手机产品信息的特色词库。设计并实现了一种结合网页内容评价与web图搜索策略的综合主题搜索策略。该综合主题搜索策略能有效的提高搜索的准确率并能有效的解决“主题漂移”和“主题泛化”现象。