基于CLucene和Larbin的企业搜索引擎的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ericwu8756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业的发展以及企业信息化建设的不断推进,电子商务、门户网站得到广泛的推广,企业内部信息量增长速度非常快。面对如此巨大的信息量,传统的信息获取方法已经远远不能满足人们快速准确获取信息的需求。常见的通用搜索引擎能够满足用户搜索网络信息的需求,但是在搜索企业信息时,这类搜索引擎就无法达到用户的期望了。企业搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。企业搜索引擎的出现,正是为了解决此类问题。本文设计并实现了一个企业搜索引擎的原型系统,该系统为进一步研究企业搜索引擎打下了良好的基础。主要工作包括:1.论述了企业搜索引擎的研究意义以及体系结构。2.介绍了搜索引擎的基本概念以及工作原理,并深入研究了搜索引擎的核心技术,包括中文分词,爬取算法等。3.基于Larbin开源爬虫,通过扩展功能实现企业内部搜索引擎的爬虫,包括编码转换、页面登录、URL过滤以及网页消噪等。4.深入分析CLucene,索引和搜索部分利用了CLucene引擎架构。5.实现了更有效的中文分词算法。专业应用领域对分词速度和准确性有特殊要求。提出了一种基于专有名词优先的中文分词方法:利用专业词典、通用词典和同义词词典相结合的词典机制,优先切分专有名词,对粗分结果利用Trigram模型进行消歧而获取最终结果。
其他文献
随着信息技术和计算机网络的发展,数字图像及视频承载了丰富的信息量在网络之间广泛传播,这对于信息真实性、著作权保护等提出了挑战。数字水印技术作为一种新型的版权保护技
随着计算机多媒体信息技术和网络通信技术的蓬勃发展,数字多媒体信息的存储、复制与传播也变得越来越方便快捷。然而,随之而来的问题也十分严重,如作品侵权更加容易,篡改更加方
计算机网络安全越来越受到人们的重视。网络入侵检测作为网络安全防护体系的主要组成部分,其作用越发重要,如今仍然是网络安全领域中的重点和热点。入侵检测(Intrusion Detecti
随着科学技术的飞速发展,数字图像已成为计算机世界的主要资源之一。传统的图像语义手工标注方法由于主观性强和工作量大等问题已不能满足人们的需要,如何自动地给图像生成标注
AST3是将要安装于位于南极内陆冰穹A的昆仑站的三台口径50cm的施密特望远镜,图像相减变源测光是AST3天文图像测光的主要方法之一,模板的生成是相减测光中重要的步骤,模板是由
作为新一代的互联网,语义网的研究得到越来越多的重视。W3C推荐使用的语义网数据管理方式RDF(Resource Description Framework,资源描述框架)是语义网的基础,其数据模型是RDF
本文提出了一种用于动作识别的描述符3D DAISY。它是受最近的一种图像描述符DAISY的启发而来的,我们将其扩展到了视频领域,处理多出的时间维度。本文提出了两种扩展方案,3D DAIS
近年来,计算机和网络技术发展日新月异,2015年两会以后,“互联网+”更是成为国家战略。当下,生物识别技术已成为一个重要的研究方向,而人脸识别因其友好性、不易被察觉等特点
教育信息化是国民经济信息化的重要标志。在科教兴国战略指导下,不断提升教育信息化水平是一项具有重要社会效益和战略价值的工作。科研管理系统是高校科研管理实现科研工作的
聚类分析是数据挖掘领域中一项重要的研究内容,其目标是在没有任何先验知识的前提下,根据数据之间的距离(欧式距离、曼哈顿距离等)或者相似性将数据对象划分为不同的簇(类),