基于多重规则的学术定义抽取研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:xiaopp1920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术定义是科学研究的基础概念与对象。学术定义明确的界定学术概念的研究范畴,其内涵丰富,表述严谨,具有高度的概括性。在期刊论文中会大量出现各种学术概念的定义。将期刊论文中的定义抽取出来,并将关于同一概念的所有定义汇总起来,不仅可以横向展示于同一概念的不同定义,让用户能够更好的理解这些概念;还能将检索的粒度由原来的篇为单位,转变成知识集合为单位。   本文通过总结其他学者关于定义抽取的研究,提出了一种构建多重学术定义抽取规则构建的方法。该方法首先通过分析定义类语句的结构特征,提出了模式规则构建方法;然后通过分析定义类语句的语法特征,提出了语法规则构建方法;最后通过对词频的统计,提出了加权词筛选法。然后以《情报理论与实践》2009年文章为数据,利用该方法构建了一套抽取规则。   本文还设计了一个抽取系统。利用构建出来的规则,该系统可以抽取文本中的定义语句。该系统主要包括4个模块,分别是预处理模块、模式规则抽取模块、语法规则抽取模块和加权词处理模块。实现该系统的关键技术包括分词技术、抽取规则导入技术、句子抽取技术和加权词处理技术。   本文主要的创新点为提出一种了基于多重规则的学术定义抽取规则构建方法,并且在加权词筛选法中,使用了具有负权重的负权词。本文以《情报理论与实践》2009年文章为训练文本构建规则,以《情报学报》2007年和2008年的文章为实验文本进行了抽取实验,通过分析实验数据验证了规则构建方法以及系统的有效性和可行性。   图4幅,表4张,参考文献30篇,其中英文参考文献12篇。
其他文献
随着计算机技术和互联网技术的发展与进步,互联网迎来了web2.0时代,它主要是相对于web1.0时代而言的。它的出现给各行各业都带来了深深的影响,尤其是在当今注重个人发展、提
基础理论是学科发展的基础。对档案学基础理论研究的状况与趋势进行分析,能够了解近十年我国档案学基础理论取得的成果、呈现的特点趋势、研究中存在的不足等。近十年来,我国
Tim Berners-Lee在1998年提出了语义网的构想,并且于2000年12月在XML2000会议上正式提出了语义网的概念和体系结构。语义网的核心是:通过给万维网上的文档添加能够被计算机所理
本文针对目前高校图书馆社会化信息服务难以满足社会对深层次信息服务的需求的问题,探索性地提出了高校图书馆的一种新型的服务——智库服务。  本文首先对高校图书馆开展智
[目的/意义]基于知识网络的核心-边缘结构揭示Folksonomy知识组织模式中标签层级演化的模式与规律,对洞悉开放网络环境下知识组织的层级结构具有重要意义.[方法/过程]以网络
目的:   共词网络是由论文的关键词及其共现关系构成的一类特殊的科学知识网络,它不仅能够从微观层面揭示科学知识体系内部的实体关系特征,还能以其演化过程反映科学知识概
公共档案馆建设是现阶段国家档案事业发展的重要内容,而公共档案馆的功能建设作为公共档案馆建设的核心更是今后档案馆工作的重中之重。公共档案馆突出“公共”二字,就必须通
学术交流是人类科学活动的重要组成部分,是推动科学发展的重要手段。有效的学术交流,能使科研人员快速、高质量地交流学术信息,能促进科学研究活动的开展,从而促进知识的增长
[目的/意义]通过对国外高校图书馆电子教参和课程导航调研分析,为国内高校图书馆相关建设提供指导和借鉴。[方法/过程]通过网站调查、文献调研,分析国外高校图书馆电子教参和
本文通过对荣华二采区10