论文部分内容阅读
随着互联网上的信息不断膨胀以及信息形式的日渐多元化,通用搜索引擎所需要采集、索引和查询的内容越来越多,然而面对庞大的搜索返回结果,用户寻找自己所需要的信息是一件很费力的事情。所以,一个专注于特定领域的、数据全面深入、更新及时、注重专业化与结构分析的垂直搜索引擎应运而生,如何准确、及时地返回结构化的信息,以及如何实现垂直搜索引擎在特定领域中的应用具有重要的研究意义。在搜索引擎领域,中文分词对搜索结果排名的影响非常大,因为搜索引擎在建立索引和检索结果的过程中,都需要先分词。本文在深入研究基于理解的分词、基于统计的分词和基于词典的分词、以及歧义词和未登录词处理的基础上,设计了一种基于字典的字符串匹配方法和基于统计相结合的分词算法,其中基于字典的方法采用逆向最大匹配方法。算法中的词典由核心词典和临时词典组成,并且核心词典采用二级哈希存储结构,在此基础上使用整词二分法的首字哈希查找技术,可在兼顾结构简单、空间占用小的情况下提高查找效率。临时词典采用单字哈希以简化其构造和维护。统计策略是解决歧义问题及未登录词问题的关键,一个好的统计策略的制定至关重要。本文计算词频的统计策略来解决新词的识别,其中新词包括未登录词和歧义词。实验证明,改进后的分词算法在经过不断的统计与学习之后,分词准确率保持在98%左右,选择合适的语料,经过不断地统计与学习,其性能得到很大的提高并能满足具体领域的应用。在改进的中文分词算法基础上,本文针对手机信息的特点和手机产品详细信息的搜索需求进行需求分析,在Eclipse开发环境中利用Lucene开源框架实现了一个可在Tomcat服务器上运行的手机信息垂直搜索引擎系统。该系统的设计方案为:首先改进Heritrix爬虫框架,在Heritrix开源爬虫框架中定制特定的抓取手机网页的类,对互联网上电子商务网站中的手机信息进行采集,然后使用正则表达式和HtmlParser提取网页内容,并在系统中加入中文分词算法对信息进行处理,同时构建手机信息词库,建立手机信息数据库和索引结构,实现用于接收用户查询信息的检索功能,最后将查询结果返回给用户。通过系统测试,本文设计的手机信息垂直搜索引擎返回的结果准确率高、性能良好,能够满足用户需要,该设计方法具有可借鉴性,可在其他领域应用。