论文部分内容阅读
互联网近年来呈现蓬勃发展趋势,网上的信息量每日呈爆炸式的增长。信息海量增长的同时,百度,谷歌等通用搜索引擎已经无法满足人们对特定领域的搜索需求。为此,针对特定领域的垂直搜索技术,已经成为了国内外研究的热点,垂直搜索引擎由此而诞生。国内外已有许多成功投入商用的垂直搜索网站。这些网站的运营成功,又反过来促进垂直搜索技术的研究进步。比如国内的以旅游为搜索主题的“去哪儿网”,以及新浪,腾讯等门户网站中的以数码为主题的网页分栏里,都是用户访问较多的网站。但是,当用户在这些网站中输入了错别字时,却反馈不了用户想要的搜索结果。为此,如何正确理解用户的输入意图,也成为了垂直搜索引擎研究的重点内容之一。本文研究并实现一个垂直搜索引擎,基于Lucene的产品比价搜索系统。具体的研究内容有:(1)分析了垂直搜索引擎特征及其关键技术,明确了论文的研究主题。(2)详细分析了实现产品比价搜索系统的各项关键技术,对网络爬虫,页面解析技术,以及对实现索引和搜索两个功能的Lucene的开源API进行了分析。(3)对中文搜索中的难点内容,中文分词技术进行了研究,介绍了基于最大正向匹配和基于统计的两种常用的中文分词算法,并针对最大正向匹配算法的不足,提出了一种改进的方法,该方法保留了传统正向匹配算法的优点,结合了词频统计。并通过三组实验来验证改进后算法,在分词精度上得到了提高。(4)对拼写检查技术进行研究,将计算最长公共子串(LCS)的方法添加到比价搜索系统的后台检索模块中,即当用户输入错别字时,系统能够进行纠错,并返回用户想要搜索的内容。使得系统能够正确理解用户的输入意图,具有一定的容错功能。本文对构建垂直搜索引擎的各个模块进行详细的分析,使用开源的网络爬虫技术来抓取指定的网页,并使用页面解析技术,将抓取的网页解析成文本格式。用Lucene提供的API对这些文本进行索引和搜索,并使用本文提出的改进中文分词代替Lucene中自带的中文分词器,以及将LCS技术添加到系统的后台检索模块中。系统运行后结果表明,在正确理解用户输入意图上,得到了明显的改善。本文的研究工作,对于促进国内垂直搜索引擎的技术研究,将会有一定的意义。