基于重要句群与基于作者文摘的汉语文献检索比较研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:zzg770707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对作者文摘和重要句群进行了内容相似度的比较和分析,同时,对基于作者文摘和基于重要句群的检索性能进行了对比研究。本文首先介绍了文摘的作用和基于文摘检索的优势,指出了自动文摘技术的可借鉴性,在此基础上分析了基于重要句群检索的必要性和可行性。文章详细描述了重要句群的生成原理和实现过程:首先下载了2064篇畜牧兽医学科的论文作为研究的测试集,并对其进行了一系列的文本预处理工作;然后以《农业词典》为基础表,结合汉语自适应分词系统识别出的未登录词创建了畜牧兽医专业词表;接着利用动态链接库CarmmLib.d11对测试文献进行分词,并计算语词权重和句子权重;最后将权重最高的若干句子作为重要句群生成并保存。在测评部分,本文引入了基于向量空间模型文本相似度的方法对重要句群和作者文摘进行相似性比较。采用余弦公式计算两者的相似值,以0.3、0.5和0.7为阈值,得出相应的测评数据,并分析了得到这种结果的原因。此外,本文对基于作者文摘和基于重要句群的检索性能进行了50个检索提问的测评。其中的用户提问来自南京农业大学图书馆参考咨询部的用户真实提问。检索过程采用布尔检索模型,对检索结果的评价选用了目前为止最主要也是最常用的检索性能评价指标查全率和查准率指标。文章使用了多种方式对评价指标进行比较分析,分别是概况表统计、R/P/F柱状图、R/P差额直方图。根据最终的比较结果,得出了以下结论:无论是查全率还是查准率,基于文摘检索和基于重要句群检索的性能差别不是很大,但是重要句群稍优于文摘,并且查全率的优于程度要大一些。本文的主要研究成果可以归纳为以下三个方面:第一,在生成重要句群过程中,本文首次统计分析了畜牧兽医学科论文的结构特点,并发现了该学科论文重要段落的分配规律;第二,本文将信息检索和文本分类中的向量空间模型引入到对文摘和重要句群的比较中,并采用基于余弦相似度的方法比较重要句群和文摘的内容相似度;第三,本文首次把重要句群作为且仅仅作为检索对象与文摘进行比较研究,并得出了基于重要句群的检索性能略高于文摘的结论。
其他文献
<正> 清代安徽桐城张氏家族中,张英、张廷玉、张若霭,祖孙三代,侍值内廷,颇受康雍乾三帝的青睐,可谓“合家顶戴”,满门朱紫。尤其张廷玉,“登朝垂五十年,长词林者二十七年,主
针对励磁涌流引起变压器纵联差动保护误动的问题,提出了一种基于小波变换和模极大值理论来辨别励磁涌流与故障电流的新依据。该方法根据励磁涌流含有大量非周期分量和波形间
她是美国《时代周刊》评选出的20世纪最有影响力的100位艺术家中惟一的女性,她的影片被视为后世导演的美学典范,因此有人说“当今世界没有一部纪录片不受她的影响”,她“开创
本文从国有资本的本质入手,分析了国有资本实质上所承担的职能,提出了国企改革过程中,应该重点解决的一系列微观问题:国有资本的产权、法人治理结构及相互之间的关系,并对这些问题
目的:评价中医药治疗冠心病的系统评价/Meta分析的方法学质量,促进国内系统评价的发展。方法:计算机检索中国生物医学文献数据库(CBM)、中国期刊全文数据库(CNKI)、维普数据
天然苯并菲啶季铵盐(QBAs)属于异喹啉类生物碱,如血根碱和白屈菜红碱,有着较好的杀虫活性,但是因其含量低,种类少,使其开发利用受限。鉴于以上原因,实验室前期设计合成了QBAs
当今影视传媒飞速发展,以影视作为载体的影视武术也得到空前的发展。高投入、高科技、高制作的影视武术与现实生活中的武术形成一定的落差,越来越多的人对现实生活中的武术产
土家族医药历史悠久、源远流长,千百年来通过世代土家医药工作者不断实践总结,逐渐形成了具有本民族特色的医药理论体系,总结出了一整套民族药物的性能、分类、使用的体系.湘
高校思想政治理论学科,是高校大学生思想政治教育的主阵地,在新时代,越来越多的院校不断进取和开拓创新,马克思主义理论学科体系也得到了进一步丰富和发展,是进教材、进课堂