论文部分内容阅读
本文对作者文摘和重要句群进行了内容相似度的比较和分析,同时,对基于作者文摘和基于重要句群的检索性能进行了对比研究。本文首先介绍了文摘的作用和基于文摘检索的优势,指出了自动文摘技术的可借鉴性,在此基础上分析了基于重要句群检索的必要性和可行性。文章详细描述了重要句群的生成原理和实现过程:首先下载了2064篇畜牧兽医学科的论文作为研究的测试集,并对其进行了一系列的文本预处理工作;然后以《农业词典》为基础表,结合汉语自适应分词系统识别出的未登录词创建了畜牧兽医专业词表;接着利用动态链接库CarmmLib.d11对测试文献进行分词,并计算语词权重和句子权重;最后将权重最高的若干句子作为重要句群生成并保存。在测评部分,本文引入了基于向量空间模型文本相似度的方法对重要句群和作者文摘进行相似性比较。采用余弦公式计算两者的相似值,以0.3、0.5和0.7为阈值,得出相应的测评数据,并分析了得到这种结果的原因。此外,本文对基于作者文摘和基于重要句群的检索性能进行了50个检索提问的测评。其中的用户提问来自南京农业大学图书馆参考咨询部的用户真实提问。检索过程采用布尔检索模型,对检索结果的评价选用了目前为止最主要也是最常用的检索性能评价指标查全率和查准率指标。文章使用了多种方式对评价指标进行比较分析,分别是概况表统计、R/P/F柱状图、R/P差额直方图。根据最终的比较结果,得出了以下结论:无论是查全率还是查准率,基于文摘检索和基于重要句群检索的性能差别不是很大,但是重要句群稍优于文摘,并且查全率的优于程度要大一些。本文的主要研究成果可以归纳为以下三个方面:第一,在生成重要句群过程中,本文首次统计分析了畜牧兽医学科论文的结构特点,并发现了该学科论文重要段落的分配规律;第二,本文将信息检索和文本分类中的向量空间模型引入到对文摘和重要句群的比较中,并采用基于余弦相似度的方法比较重要句群和文摘的内容相似度;第三,本文首次把重要句群作为且仅仅作为检索对象与文摘进行比较研究,并得出了基于重要句群的检索性能略高于文摘的结论。