基于Lucene的垂直搜索引擎的研究与实现

来源 :成都理工大学 | 被引量 : 4次 | 上传用户:yeaGem
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上的信息不断膨胀以及信息形式的日渐多元化,通用搜索引擎所需要采集、索引和查询的内容越来越多,然而面对庞大的搜索返回结果,用户寻找自己所需要的信息是一件很费力的事情。所以,一个专注于特定领域的、数据全面深入、更新及时、注重专业化与结构分析的垂直搜索引擎应运而生,如何准确、及时地返回结构化的信息,以及如何实现垂直搜索引擎在特定领域中的应用具有重要的研究意义。在搜索引擎领域,中文分词对搜索结果排名的影响非常大,因为搜索引擎在建立索引和检索结果的过程中,都需要先分词。本文在深入研究基于理解的分词、基于统计的分词和基于词典的分词、以及歧义词和未登录词处理的基础上,设计了一种基于字典的字符串匹配方法和基于统计相结合的分词算法,其中基于字典的方法采用逆向最大匹配方法。算法中的词典由核心词典和临时词典组成,并且核心词典采用二级哈希存储结构,在此基础上使用整词二分法的首字哈希查找技术,可在兼顾结构简单、空间占用小的情况下提高查找效率。临时词典采用单字哈希以简化其构造和维护。统计策略是解决歧义问题及未登录词问题的关键,一个好的统计策略的制定至关重要。本文计算词频的统计策略来解决新词的识别,其中新词包括未登录词和歧义词。实验证明,改进后的分词算法在经过不断的统计与学习之后,分词准确率保持在98%左右,选择合适的语料,经过不断地统计与学习,其性能得到很大的提高并能满足具体领域的应用。在改进的中文分词算法基础上,本文针对手机信息的特点和手机产品详细信息的搜索需求进行需求分析,在Eclipse开发环境中利用Lucene开源框架实现了一个可在Tomcat服务器上运行的手机信息垂直搜索引擎系统。该系统的设计方案为:首先改进Heritrix爬虫框架,在Heritrix开源爬虫框架中定制特定的抓取手机网页的类,对互联网上电子商务网站中的手机信息进行采集,然后使用正则表达式和HtmlParser提取网页内容,并在系统中加入中文分词算法对信息进行处理,同时构建手机信息词库,建立手机信息数据库和索引结构,实现用于接收用户查询信息的检索功能,最后将查询结果返回给用户。通过系统测试,本文设计的手机信息垂直搜索引擎返回的结果准确率高、性能良好,能够满足用户需要,该设计方法具有可借鉴性,可在其他领域应用。
其他文献
单光子探测是一种极弱光探测技术,在高分辨率的光谱测量、非破坏性物质分析、高速现象检测、精密分析、大气测污、生物发光、放射探测、高能物理、天文探测、光时域反射、量子
云计算是一种互联网计算新模式,因为其商业模式代表了未来的趋势,近年来受到了工业界和学术界的广泛关注,并且已经逐步应用(?)起来。其中,基础设施云是云计算三种交付模型(即
近几年来,物联网的发展为智能家居概念注入了新的内涵,作为物联网应用的一个新的领域,智能家居系统融合了先进的计算机、网络通信和自动控制等技术,将家庭中的各种家居设备通过家
物联网具有广阔的发展前景,建立共性平台是未来物联网发展的重要趋势,也是物联网规模产业化的制高点。作为物联网感知层的核心组成部分,数据采集终端(简称“数采终端”)完成传感
团购是指将原本单独购买某种商品或服务的消费者组织起来,在一个较短的时间段内集中与商家发生交易,以求得更低折扣或者更优服务的一种购物方式。网络团购是以互联网作为媒介,将
随着计算机应用的深入开展和业务需求的增长,企业对IT系统的发布提出了更高的要求。传统的人工手动部署反应慢、过程复杂和不可控制,造成上线周期过长,导致了新功能的堆积、系统
双隐层主题模型是主题模型的一个变种。传统的主题模型方法比如LDA,PLSA都是单一隐层,对应着文本的主题变量,因而能够对文档的主题进行建模。而双隐层主题模型具有双隐变量,分别
碰撞检测技术是指检测虚拟场景中两个或多个物体对象之间是否碰撞,何时碰撞,何处碰撞等问题。碰撞检测技术在计算机游戏,物理仿真,虚拟技术,计算动画等领域得到广泛的应用。因其算
面向对象的组件开发方法采用全新的方法论,对很多经验不足的程序员来说,难以理解。加上结构化思想的干扰,使很多采用面向对象方法的应用开发并不能体现出优势。在这种情况下,采用
分布式总账自2009年由中本聪首次提出后,经过短短几年时间就取得了巨大发展,并自2013年起引起了学术界和工业界的广泛关注。与传统银行总账不同,分布式总账采用去中心化方式管理