面向文景转换的中文语义角色标注研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Thomas1007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),属于该项目的自然语言处理模块。在文景转换系统中,要针对输入文本生成相应的三维场景和动画,就必须首先运用自然语言处理技术,全面地理解文章中的动词以其语义角色信息。为此,我们提出了面向“文景转换”的中文语义角色标注研究。语义角色标注是一种浅层语义分析的方法,是对深层语义分析的一种简化,它标注句子中与谓词有关的成份为语义角色,以信息抽取的方法来处理语义分析问题。本研究的目的正是在于从语义层面上,深刻地理解文本,以动词为线索全面掌握文章所表达的实体、动作和场景等信息。针对当前的研究状况,本文提出了基于chunk的中文自动语义角色标注研究。该研究以短语串为标注对象,把语义角色标注抽象为分类问题,利用SNoW(Sparse Network of Winnow)工具,通过有指导的学习,实现对“文景转换”领域中文文本的自动语义角色标注。同时,也涉及了语义角色语料库和动词语义框架库的资源建设等工作。本文的主要研究内容包括:1.结合现有资源,对语料中的动词进行统计,包括:词频统计,同语料库的比较,以及覆盖率统计。并分别基于Hownet和CPB的定义对动词进行分类,从不同侧面研究了动词的类别信息。2.使用CPB和Hownet2005的定义相结合,为语料中词频大于等于2的动词建立动词语义框架库。3.参照已建好的语义框架库,在chunk加工的基础上,对语料中的动词及其语义角色进行手工标注。4.自动语义角色标注的研究:使用SNoW工具,把语义角色标注转化为分类问题。结合语料构造了基于chunk的特征空间,并对各种特征的组合进行实验和分析。5.对自动识别效果较差的语义角色进行研究,制定后处理规则,以帮助提升系统的性能。6.建立语义角色标注系统,具体分为:预处理,自动标注,以及后处理三部分。并使用领域内语料和通用语料对系统进行了全面的评价。
其他文献
在大型复杂系统开发的初期,系统需求的抽取、描述和管理是一件困难而细致的工作,对后期开发的影响也是至关重要的。华中科技大学软件工程实验室研究课题SoftMaker作为生产软
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网
随着计算机技术的发展与普及,许多企事业单位和管理机构都建立了自己的管理信息系统。在信息系统开发设计过程中,安全性能总是被放在首要的位置,成为信息系统生存的关键。构建企
网格技术是一门新兴的技术,有着非常广泛的应用前景和发展空间。在网格强大的功能给科学研究带来极大便利的同时,也不得不担心网格应用的安全性。 本文通过对网格安全的需求
本文针对信息时代“信息爆炸”的问题,即信息极大丰富而知识相对匮乏,进行了基于XML的Web内容挖掘应用研究。文章在介绍了数据挖掘、Web内容挖掘、XML技术等相关理论知识的基
近年来,随着互联网的发展和计算机系统的普及,地理信息系统得到了快速的发展,在导航定位、地图制图、国防、规划建设等等众多领域得到了广泛的应用。空间数据作为地理信息系
随着中国信息产业的飞速发展,互联网上中文信息的爆炸式增长,传统的文本分类技术已经难以满足中文分类任务的高维度、大数据量以及高可读性的要求,亟需开发适合中文的自动文
随着网络技术和通信技术的快速发展,实时语音、视频等多媒体应用得到迅速推广和普及,用于管理多媒体会话建立、修改和终止等过程的信令控制协议必不可少。会话初始化协议(SIP
随着因特网的迅猛发展,在线的可用电子信息业迅速增加,电子邮件作为一种最快捷、最经济的通信方式也得到了飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器中的
对于已经建立起来的供应链,如何利用历史数据为整个供应链的协同管理提供数据支持从而得到更好的产品质量、更有效的服务、更高效的维修,成为核心制造企业提高企业形象、吸引