基于Lucene的中文全文检索Web系统的开发与维护

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：fenfeixueer

【摘要】

：

传统的全文检索技术在搜索时只是简单的匹配搜索词,导致信息检索结果不能总是尽如人意。为了进一步提高检索性能,本文利用本体强大的语义表达能力,设计并实现了对用户搜索词

【作者】

：

池万泱

【出处】

：

北京邮电大学

【发表日期】

：

2016年01期

【关键词】

：

本体全文检索 Lucene 中文分词关联性分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的全文检索技术在搜索时只是简单的匹配搜索词,导致信息检索结果不能总是尽如人意。为了进一步提高检索性能,本文利用本体强大的语义表达能力,设计并实现了对用户搜索词语义层面上的扩展,提高了系统检索性能。为实现上述目标,本文主要做了如下四个方面的工作:(1)提出一种半自动化构建领域本体的方法,并实践于体育新闻领域,论证了其可行性。方法的具体过程是,首先基于数据挖掘和文本聚类,找出特定领域的关键词汇,然后通过HowNet概念义原,组成概念属性二元关系,并通过FCA概念格理论,找出聚类后词汇之间的上下位关系,最后利用Jena把上述得到的结果用owl本体描述语言进行编码和形式化,完成领域本体的半自动构建。(2)设计实现一种改进的双向最大匹配分词算法。分词有两个难点,一是对未登录词的识别;二是对歧义词的消除。本文提出的分词算法,针对未登录词,分词时,遇到单字词,就存到一个集合中,直到遇到停顿词或是登录词,这时单字词集合就是发现的新词,存入字典;针对歧义词,按统计分词方法,计算历史分词中相关词语的出现比例,以高者作为最终分词结果。最后选用山西大学的分词语料库和双向最大匹配算法做性能对比,表明改进后算法具有更好的性能。(3)在以上两个工作内容的基础上,设计实现基于本体的全文检索Web系统。为了能进一步提高系统检索的性能,通过词语概念映射,解决搜索词必须是受控词的问题。通过局部上下文的词语关联性分析,解决通过本体扩展后搜索词庞大的问题。最后应用SSH框架设计实现基于Lucene的全文检索Web系统。并通过在普通全文检索系统上一步步增加本体扩展,关联性分析,词语概念映射这三个功能模块,实现性能的渐进式比较,阐述了这种方式的可行性和优越性。(4)对实现的Web系统做安全方面的维护。针对一些常见的Web系统安全漏洞,做安全加固,并通过AppScan安全检测工具,分别扫描本文安全加固方案实施前后的Web系统,验证了本文实现的安全加固方案的可行性。

其他文献

仔猪大肠杆菌病的防控建议

仔猪大肠杆菌疾病是危害我国养猪业的主要疾病,它给养猪业带来的损失是不可估量的。在仔猪肠道的正常微生物区系中,大肠杆菌占据着非常重要的地位,但是,一些特定的菌株具有非

期刊

大肠杆菌仔猪疾病防控

乌鲁木齐米东区试播2500亩优质苜蓿改良退化草场

近日，乌鲁木齐市米东区2013年牧场改良草场补播工作正式开展，将对2500亩草场进行优质牧草草籽试播。米东区草原监理站工作人员根据往年补播情况及本区草场实际环境，决定试播进口

期刊

退化草场乌鲁木齐市苜蓿改良优质牧草试播牧草补播工作人员紫花苜蓿

引入农业保险下种植业农产品供应链的协调性与利润稳定性研究

种植业是我国农业的重要基础,其发展水平关乎人们日常生活质量。然而,种植业农产品的生产对环境条件要求较高,在灾害、事故或病疫等自然风险的威胁下,农户的产出具有高度的不

学位

种植业农产品供应链农业保险收益共享契约协调性利润稳定性

水稻信息综合管理系统设计与实现

为了实现我院水稻基地的信息化管理,应用ASP.NET和SQL Server 2000,采用B/S模式,设计了我院水稻信息综合管理系统。该系统实现了水稻品种、水稻病虫害、水稻图片、水稻图片评

期刊

B/S水稻品种水稻病虫害水稻图片远程监控

物理观念及其形成与发展的教学策略

通过具体物理知识的学习凝练而成的物理观点、思想和方法即物理观念能植根于学生头脑中而被长时间保留,成为他们的思维习惯和行为习惯.因此,中学物理教学应重视学生物理观念

期刊

物理观念教学策略思想方法

武清区采取多项措施大力发展奶牛饲养

2013年以来，国内生鲜乳供应出现不同程度的短缺，造成一些乳品加工企业等米下锅，乳制品价格上涨，给市民的日常生活造成了一定的影响。怎样稳定并增加奶牛存栏数量、提高生鲜乳产量

期刊

奶牛饲养武清区乳品加工企业价格上涨乳制品存栏数乳产量

浅谈霉菌毒素检测技术在规模化牧场的应用

近几年，随着国家“菜篮子工程”建设和政策对养殖业的扶持力度增大，国内规模化养殖正在逐步替代原有的散户养殖模式，规模化养殖企业迅速增加。奶牛场存栏从以前的几百上千头已经

期刊

规模化养殖检测技术霉菌毒素应用牧场菜篮子工程养殖模式养殖企业

六年级上册“分数乘法、位置与方向”单元测试卷（测试时间：60分钟总分：100分）

期刊

孙悟空的“火眼金睛”

期刊

孙悟空猪八戒个数大师

被忽略的“对称”

小朋友，你喜欢剪纸游戏吗？相信剪几个简单的图形对你来说一定没问题。如果纸上有一个正三角形，需要剪下来，你会怎么操作？沿着三条边逐一剪开吗？你一定有最简单的方法，不过在此之前，我

期刊

“对称”忽略正三角形小朋友剪纸游戏

基于Lucene的中文全文检索Web系统的开发与维护

与本文相关的学术论文