论文部分内容阅读
学术定义是科学研究的基础概念与对象。学术定义明确的界定学术概念的研究范畴,其内涵丰富,表述严谨,具有高度的概括性。在期刊论文中会大量出现各种学术概念的定义。将期刊论文中的定义抽取出来,并将关于同一概念的所有定义汇总起来,不仅可以横向展示于同一概念的不同定义,让用户能够更好的理解这些概念;还能将检索的粒度由原来的篇为单位,转变成知识集合为单位。
本文通过总结其他学者关于定义抽取的研究,提出了一种构建多重学术定义抽取规则构建的方法。该方法首先通过分析定义类语句的结构特征,提出了模式规则构建方法;然后通过分析定义类语句的语法特征,提出了语法规则构建方法;最后通过对词频的统计,提出了加权词筛选法。然后以《情报理论与实践》2009年文章为数据,利用该方法构建了一套抽取规则。
本文还设计了一个抽取系统。利用构建出来的规则,该系统可以抽取文本中的定义语句。该系统主要包括4个模块,分别是预处理模块、模式规则抽取模块、语法规则抽取模块和加权词处理模块。实现该系统的关键技术包括分词技术、抽取规则导入技术、句子抽取技术和加权词处理技术。
本文主要的创新点为提出一种了基于多重规则的学术定义抽取规则构建方法,并且在加权词筛选法中,使用了具有负权重的负权词。本文以《情报理论与实践》2009年文章为训练文本构建规则,以《情报学报》2007年和2008年的文章为实验文本进行了抽取实验,通过分析实验数据验证了规则构建方法以及系统的有效性和可行性。
图4幅,表4张,参考文献30篇,其中英文参考文献12篇。