基于树核方法的中文语义角色标注研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:jrwal
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义角色标注(Semantic Role Labeling,简称SRL)是浅层语义分析的一种实现方式,其任务是对于给定句子,对句子中的每个谓词标注出句中的相应语义成分,并作出相应的语义标记,如施事、受事、工具或附加语等。近期主流的SRL研究都基于特征向量的方法,取得了较好的效果。然而,这种方法存在的问题也日益突显,如:更有效的特征很难被抽取,丢失了重要的结构化信息等。目前,一种研究趋势是探索基于核函数的SRL方法,可以有效地解决特征工程所带来的瓶颈。本文深入探讨了基于树核方法的中文语义角色标注,重点研究SRL的分类阶段。首先,我们研究了应用在中文SRL上的各种核方法:使用二次多项式核实现了一个基于特征向量的语义角色分类系统;探索了基于卷积树核的语义角色分类方法,并在最小句法树结构的基础上,进一步定义了两种不同的句法结构。在中文PropBank语料上的精确率达到91.53%;使用复合核将基于树核和基于特征的方法结合,性能进一步提高,分类精确率达到94.23%。接着,我们对适用于中文SRL的有效结构化信息做了更为深入的研究,探索了结构化特征对语义角色分类的重要性。考虑到同一谓词的各论元间的影响,提出了多论元-谓词结构化特征空间(AAPF),并在结构化特征中融入平面特征的信息,提出了三种受平面特征启发的方法,分类精确率提高到92.54%。再使用复合核将最优的树核方法FIT与特征向量结合起来对语义角色进行分类,分类精确率达到95.21%,性能优于目前同类SRL系统。最后,我们使用树核函数的方法对中文名词性谓词语义角色分类进行了初步探索,结果表明,将树核函数应用于中文名词性谓词语义角色分类有较大的潜力。
其他文献
随着互联网的发展和科学技术的不断进步,各行各业都出现了海量的数据,这些数据是传统的技术所无法处理的。例如在经济、金融、电信等行业都出现了海量的数据。在这样的大数据
随着网络和计算机的飞速发展,人们日常的生活越来越离不开电脑和网络。整个社会的运转对计算机和网络的依赖越来越大,政府、军队、商业机密信息的保密机制需要不断加强。然而
虚拟植物研究是一种针对植物个体或种群,集植物学、系统生物学、应用数学、信息科学和计算机图形学、可视化技术等为一体的交叉学科研究,是目前大家广为关注的热点研究之一。
随着信息技术的发展,计算机已经成为人们日常生活中重要的一部分,娱乐休闲、商务办公乃至国民生产,都与计算机技术息息相关。然而,伴随其应用的广泛性,计算机安全威胁也无处
随着立体电影在市场上的畅销,立体电影不仅在学术界受到关注,还在工业界产生了巨大的波动。随着它的成功,使图像和视频往一个崭新的方向发展,即从二维平面显示到三维立体显示
文件搜索在个人用户数据管理和企业搜索方面都有重要的应用价值,逐渐成为文件系统研究的热点。近年来,随着存储硬件容量和性能的大幅提高,计算机系统需要管理的文件数量和类型大
结构化P2P网络采用DHT (分布式哈希表)技术,把每个节点映射到一个节点标识,构成覆盖网(Overlay Network),把资源关键字映射的覆盖网络的节点中,提供可扩展的、健壮的资源定位
多媒体技术时代,用户从海量数据库中区分有用的信息变得越发困难。图像的迅猛增长向人们搜索图像信息提出了一个挑战。用户迫切地需要一种有效的工具来帮助他们尽可能准确、
面对网络中海量的视频文件,人们迫切需要一种能够有效地检索和获取视频内容的工具。视频中的文本包含了丰富的高层语义信息,从视频图像中提取出文本图像并最终识别为文本字符
我国矿业管理的信息化水平较低,严重影响了资源评价及储量监管的水平、效率和可信度,同时降低了矿山设计和计划编制的效率与可靠性,使得矿业的生存与发展面临着空前的困境。巷道