基于主动学习的汉语框架语义角色标注

来源 :山西大学 | 被引量 : 2次 | 上传用户:ciscohd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义角色标注是自然语言处理研究领域的的一个关键问题,备受专家学者关注。作为浅层语义分析的一种实现方式,如能将其有效解决,可直接服务于自动问答、机器翻译、信息抽取等其他自然语言处理领域的相关任务。本文借助汉语框架网语义知识资源,研究了汉语框架语义角色标注,即采用条件随机场模型,针对特征选择问题首次引入依存路径从而有效增加了标注模型召回率,并在此基础上应用主动学习到汉语框架句子库的构建中。目前框架语义角色标注的研究以有监督的机器学习方法为主,因此需要一定规模且人工标注质量较高的例句作为训练语料,而现阶段汉语框架句子资源相对较少,而人工标注例句代价高,需要较多人力成本,所以本文引入主动学习的方法来降低汉语框架句子库的构建成本。本文首次在汉语框架语义角色标注中加入路径特征,提出并分析了不同路径对标注结果的影响作用。然后在汉语框架句子库和最优特征的基础上介绍了如何将主动学习应用到汉语框架句子库的构建中,从而达到降低构建框架句子库的人力成本和提高汉语框架语义角色标注性能的双重目的。本文主动学习采用不确定性抽样和委员会投票两种不同的判定置信度的方法并与被动学习做对比试验。该方法优先选择当前框架元素标注模型预测最不准(即置信度最低)的例句交由人工标注,以期使框架元素标注模型达到同等结果只需要标注更少的训练例句。本文针对判定置信度的方法提出并比较了权衡框架元素标注模型预测可信度的四种规则。实验结果表明,一以特征角度作为切入点的一级路径特征的加入,有效增加了汉语框架语义角色标注的召回率,而召回率的提高对发挥主动学习的作用有重要作用。二以语料为出发点的主动学习判定置信度的方法中,不确定性比委员会投票的方法更简单有效,但两者相比被动学习方法都获取了更好的结果。首先它使汉语框架语义角色标注在达到同等结果时最多可减少百分之三十的人工标注量;其次与被动学习随机选择例句标注相比,当使用相同数量的训练例句时,主动学习比被动学习的汉语框架语义角色标注性能有较大提高,性能最高提升5.07个百分点。
其他文献
无线传感器网络作为一种新兴的信息获取系统,在探测、工业生产自动化、生态环境监测等方面,都具有非常广阔的应用前景。无线传感器网络中的节点具有体积小、成本低,而且具有
无线传感器网络,是集成了传感器技术、微电子技术、网络通信技术而形成的具有信息获取和信息处理功能的移动网络,它是多学科交叉的前沿研究课题,在军事、工业、医疗、交通和
随着信息时代的到来,科研工作者在研究过程中不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布、文本聚类中的词频等,所以经常会面临高维数据降维的问题。数据
自然人机交互是未来计算机的发展方向,最终目标是使计算机能看,能听,能说,会思考。文章研究的是用多个指示色标块作为交互媒介,摄像头作为输入设备的基于计算机视觉的人机交
运动人体的检测与跟踪是计算机视觉研究的一个重要领域,是对人体进行行为分析和理解的基础,其相关技术被广泛应用到人类的各个领域中。行人检测与跟踪主要有静止背景与运动背
随着互联网信息爆炸性增长,通用搜索引擎已经越来越难以满足人们日益增长的个性化需求。在面对专业搜索请求时,通用搜索引擎往往表现的力不从心。为了实现对特定行业的专、准
Web2.0时代,网络出现了大量产品评论,这些评论不仅给用户消费产品带来一定的导向作用,而且对厂家生产产品起到一定的反馈作用,如何从大量复杂评论数据中抽取有效信息并构建评
在企业级分布式应用领域,传统的分布式应用体系结构大都从自身需求出发,使用各种不同的技术构成相互独立的紧耦合的封闭式系统,它们相互之间缺乏兼容性、有效的互操作性以及重用
随着信息时代的发展,人们所获得的信息量爆发性的增长,以至于人们对从巨大信息量中获得有用的而且正确的信息具有更为迫切的要求,这也就是数据挖掘产生的原因。数据挖掘即分
当前,计算机科学技术、信息通信技术得以快速发展,而且随着3C(computer, communications, consumer electronics)技术的快速合一,使得嵌入式系统在生产生活的各个方面得到广