基于Lucene的产品比价搜索系统的研究与设计

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:cqwcr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网近年来呈现蓬勃发展趋势,网上的信息量每日呈爆炸式的增长。信息海量增长的同时,百度,谷歌等通用搜索引擎已经无法满足人们对特定领域的搜索需求。为此,针对特定领域的垂直搜索技术,已经成为了国内外研究的热点,垂直搜索引擎由此而诞生。国内外已有许多成功投入商用的垂直搜索网站。这些网站的运营成功,又反过来促进垂直搜索技术的研究进步。比如国内的以旅游为搜索主题的“去哪儿网”,以及新浪,腾讯等门户网站中的以数码为主题的网页分栏里,都是用户访问较多的网站。但是,当用户在这些网站中输入了错别字时,却反馈不了用户想要的搜索结果。为此,如何正确理解用户的输入意图,也成为了垂直搜索引擎研究的重点内容之一。本文研究并实现一个垂直搜索引擎,基于Lucene的产品比价搜索系统。具体的研究内容有:(1)分析了垂直搜索引擎特征及其关键技术,明确了论文的研究主题。(2)详细分析了实现产品比价搜索系统的各项关键技术,对网络爬虫,页面解析技术,以及对实现索引和搜索两个功能的Lucene的开源API进行了分析。(3)对中文搜索中的难点内容,中文分词技术进行了研究,介绍了基于最大正向匹配和基于统计的两种常用的中文分词算法,并针对最大正向匹配算法的不足,提出了一种改进的方法,该方法保留了传统正向匹配算法的优点,结合了词频统计。并通过三组实验来验证改进后算法,在分词精度上得到了提高。(4)对拼写检查技术进行研究,将计算最长公共子串(LCS)的方法添加到比价搜索系统的后台检索模块中,即当用户输入错别字时,系统能够进行纠错,并返回用户想要搜索的内容。使得系统能够正确理解用户的输入意图,具有一定的容错功能。本文对构建垂直搜索引擎的各个模块进行详细的分析,使用开源的网络爬虫技术来抓取指定的网页,并使用页面解析技术,将抓取的网页解析成文本格式。用Lucene提供的API对这些文本进行索引和搜索,并使用本文提出的改进中文分词代替Lucene中自带的中文分词器,以及将LCS技术添加到系统的后台检索模块中。系统运行后结果表明,在正确理解用户输入意图上,得到了明显的改善。本文的研究工作,对于促进国内垂直搜索引擎的技术研究,将会有一定的意义。
其他文献
运动模糊是在相机曝光时间内,由于场景和相机之间发生了相对位移而产生模糊图像的一种物理现象。运动模糊图像在现实生活中无处不在,因此,对运动模糊的研究具有十分广泛和重要的
作为网络百科全书的代表,维基百科已成为广大用户获取知识的资源库,所有维基百科条目按类别组织而成,整个维基百科类别系统构成了一个具有层次结构关系的分类体系,用户可以根
现场直播中为了满足电视观众兴趣点差异化的欣赏需求,本文提出了一种多场景电视的概念,同时提供多个现场场景的视频,使观众可以根据自己的兴趣从中自主选择收看一个到多个场
网络流量分析与异常检测是互联测量的重要应用之一。网络流量进行深入的分析对网络性能评估、网络安全以及保证网络有效的运行有着重要的意义。  目前,IPv6协议作为下一代互
线性代数委托计算有着重要的理论和应用价值。随着计算机技术朝着多极化方向发展,计算资源分布越来越不均匀,而委托计算技术可以使得资源分配更合理、更灵活,因此对委托计算进行
输送带的应用领域随着工业化推进及传动技术的发展而不断扩大,输送带的安全寿命使用期是衡量输送机运转效率及安全运输的重要指标。输送带受材质因素、环境因素及物料因素,运输
近年来,实时监控系统、物联网、Internet传输信息等环境产生了大量数据流,这类数据具有快速到达、海量潜在无限和概念漂移的特点。这些特点使得无法使  用传统的数据分类方法
本体是共享概念模型的形式化规范的说明,目前已经被成功地应用到语义网、人工智能和知识工程等领域。本体是语义网的核心基础,然而本体创建和使用具有主观性和自治性,从而导致了
无线传感器网络(WSN)综合了计算机技术、通信技术以及传感器技术,被广泛用于环境监测、军事防御等领域,是当今嵌入式领域的研究热点。WSN应用开发设计涉及的相关领域较多,包括射频
本文主要研究了一种新的生物特征识别技术——手背静脉识别,包括近红外手背静脉图像采集、图像预处理、基于自适应滤波的手背静脉图像增强算法、基于动态全局阈值的手背静脉分