论文部分内容阅读
传统的全文检索技术在搜索时只是简单的匹配搜索词,导致信息检索结果不能总是尽如人意。为了进一步提高检索性能,本文利用本体强大的语义表达能力,设计并实现了对用户搜索词语义层面上的扩展,提高了系统检索性能。为实现上述目标,本文主要做了如下四个方面的工作:(1)提出一种半自动化构建领域本体的方法,并实践于体育新闻领域,论证了其可行性。方法的具体过程是,首先基于数据挖掘和文本聚类,找出特定领域的关键词汇,然后通过HowNet概念义原,组成概念属性二元关系,并通过FCA概念格理论,找出聚类后词汇之间的上下位关系,最后利用Jena把上述得到的结果用owl本体描述语言进行编码和形式化,完成领域本体的半自动构建。(2)设计实现一种改进的双向最大匹配分词算法。分词有两个难点,一是对未登录词的识别;二是对歧义词的消除。本文提出的分词算法,针对未登录词,分词时,遇到单字词,就存到一个集合中,直到遇到停顿词或是登录词,这时单字词集合就是发现的新词,存入字典;针对歧义词,按统计分词方法,计算历史分词中相关词语的出现比例,以高者作为最终分词结果。最后选用山西大学的分词语料库和双向最大匹配算法做性能对比,表明改进后算法具有更好的性能。(3)在以上两个工作内容的基础上,设计实现基于本体的全文检索Web系统。为了能进一步提高系统检索的性能,通过词语概念映射,解决搜索词必须是受控词的问题。通过局部上下文的词语关联性分析,解决通过本体扩展后搜索词庞大的问题。最后应用SSH框架设计实现基于Lucene的全文检索Web系统。并通过在普通全文检索系统上一步步增加本体扩展,关联性分析,词语概念映射这三个功能模块,实现性能的渐进式比较,阐述了这种方式的可行性和优越性。(4)对实现的Web系统做安全方面的维护。针对一些常见的Web系统安全漏洞,做安全加固,并通过AppScan安全检测工具,分别扫描本文安全加固方案实施前后的Web系统,验证了本文实现的安全加固方案的可行性。