基于Lucene的中文全文检索Web系统的开发与维护

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:fenfeixueer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的全文检索技术在搜索时只是简单的匹配搜索词,导致信息检索结果不能总是尽如人意。为了进一步提高检索性能,本文利用本体强大的语义表达能力,设计并实现了对用户搜索词语义层面上的扩展,提高了系统检索性能。为实现上述目标,本文主要做了如下四个方面的工作:(1)提出一种半自动化构建领域本体的方法,并实践于体育新闻领域,论证了其可行性。方法的具体过程是,首先基于数据挖掘和文本聚类,找出特定领域的关键词汇,然后通过HowNet概念义原,组成概念属性二元关系,并通过FCA概念格理论,找出聚类后词汇之间的上下位关系,最后利用Jena把上述得到的结果用owl本体描述语言进行编码和形式化,完成领域本体的半自动构建。(2)设计实现一种改进的双向最大匹配分词算法。分词有两个难点,一是对未登录词的识别;二是对歧义词的消除。本文提出的分词算法,针对未登录词,分词时,遇到单字词,就存到一个集合中,直到遇到停顿词或是登录词,这时单字词集合就是发现的新词,存入字典;针对歧义词,按统计分词方法,计算历史分词中相关词语的出现比例,以高者作为最终分词结果。最后选用山西大学的分词语料库和双向最大匹配算法做性能对比,表明改进后算法具有更好的性能。(3)在以上两个工作内容的基础上,设计实现基于本体的全文检索Web系统。为了能进一步提高系统检索的性能,通过词语概念映射,解决搜索词必须是受控词的问题。通过局部上下文的词语关联性分析,解决通过本体扩展后搜索词庞大的问题。最后应用SSH框架设计实现基于Lucene的全文检索Web系统。并通过在普通全文检索系统上一步步增加本体扩展,关联性分析,词语概念映射这三个功能模块,实现性能的渐进式比较,阐述了这种方式的可行性和优越性。(4)对实现的Web系统做安全方面的维护。针对一些常见的Web系统安全漏洞,做安全加固,并通过AppScan安全检测工具,分别扫描本文安全加固方案实施前后的Web系统,验证了本文实现的安全加固方案的可行性。
其他文献
仔猪大肠杆菌疾病是危害我国养猪业的主要疾病,它给养猪业带来的损失是不可估量的。在仔猪肠道的正常微生物区系中,大肠杆菌占据着非常重要的地位,但是,一些特定的菌株具有非
近日,乌鲁木齐市米东区2013年牧场改良草场补播工作正式开展,将对2500亩草场进行优质牧草草籽试播。米东区草原监理站工作人员根据往年补播情况及本区草场实际环境,决定试播进口
种植业是我国农业的重要基础,其发展水平关乎人们日常生活质量。然而,种植业农产品的生产对环境条件要求较高,在灾害、事故或病疫等自然风险的威胁下,农户的产出具有高度的不
为了实现我院水稻基地的信息化管理,应用ASP.NET和SQL Server 2000,采用B/S模式,设计了我院水稻信息综合管理系统。该系统实现了水稻品种、水稻病虫害、水稻图片、水稻图片评
通过具体物理知识的学习凝练而成的物理观点、思想和方法即物理观念能植根于学生头脑中而被长时间保留,成为他们的思维习惯和行为习惯.因此,中学物理教学应重视学生物理观念
2013年以来,国内生鲜乳供应出现不同程度的短缺,造成一些乳品加工企业等米下锅,乳制品价格上涨,给市民的日常生活造成了一定的影响。怎样稳定并增加奶牛存栏数量、提高生鲜乳产量
近几年,随着国家“菜篮子工程”建设和政策对养殖业的扶持力度增大,国内规模化养殖正在逐步替代原有的散户养殖模式,规模化养殖企业迅速增加。奶牛场存栏从以前的几百上千头已经
期刊
小朋友,你喜欢剪纸游戏吗?相信剪几个简单的图形对你来说一定没问题。如果纸上有一个正三角形,需要剪下来,你会怎么操作?沿着三条边逐一剪开吗?你一定有最简单的方法,不过在此之前,我