多句法理论下的语义角色标注方法与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lsy5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对语义的获取是自然语言处理领域的一个重要议题,作为一种重要的语义分析技术,语义角色标注的目标在于分析给定句子的论旨结构,亦即识别出和特定动词搭配的论元并对其进行语义分类。语义角色标注在自然语言处理的很多领域——如问答系统、信息提取等——取得了成功的应用,近年来引起了国内外很多学者的关注。   自然语言处理和其它数据处理任务的一个很大的不同在于语言学家对自然语言有着系统深入的研究,语言学家对语言现象敏锐地观察、概括性地描写对我们处理自然语言有着重要的借鉴作用。本文的语义角色标注主要围绕着与句法语义相关的语言学研究成果展开,力图对其中较为抽象的句法语义理论进行建模,并将相应的模型应用于语义角色标注中。   在英语的语义角色标注方面,笔者首先观察到谓词论元结构具有局域性,即一个动词的控制范围多数情况下被限制在句子的一个子域上,这一观察在理论上同样得到了生成语言学的佐证。针对这一突出现象,笔者对生成语言学中原则与参数理论下的数个命题进行建模,并利用最大投射预测来限制论元搜索范围。实验表明这一模型能够较为有效地删减角色标注的范围,提高角色标注的效率和准确性。   语义角色标注问题是一个有复杂输出结构的标注问题,因而结构化模型是角色标注研究的重要方面。和以往关注学习算法和数学模型的研究不同,笔者将研究的侧重点放到了相关的语言学讨论中,通过对论元句法实现过程中的题元层级关系进行建模,利用论元间的题元拟序关系来体现谓词论元结构的结构信息。实验表明,论元间的题元拟序关系可以被准确预测,并且,这种拟序关系有助于角色分类。   在汉语的语义角色标注研究方面,目前的研究还处于起步阶段,笔者将主要精力放在了特征的设计、选取上。在对特征进行深入细致的分析和研究的基础上,笔者实现了一个目前为止最好的基于短语结构句法信息的语义角色标注系统,基于手工标注的句法树,该系统的角色标注F值可达到93.49,性能显著地改善了目前的文献可考的汉语语义角色标注水平--92.0。   虽然基于准确的句法分析树,汉语语义角色标注可以实现较高的性能,但由于目前的汉语句法分析研究还非常不充分,已有的句法分析器性能远远不能满足语义角色标注的要求,到目前为止,基于自动句法分析的角色标注系统一一在准确地分词和词性标注基础上——标注仅能达到71.9的F值。虽然汉语的完全句法分析尚处在起步阶段,汉语的浅层句法分析已经有了一定的研究历史,并取得了长足的进步。针对句法分析的突出问题,笔者从实际工程角度系统地研究了利用浅层句法分析进行语义角色标注的问题。实验表明,在目前的句法分析性能下,基于浅层的句法分析的角色标注系统性能——F值为74.12——优于基于完全句法分析的角色标注系统。   功能标注旨在通过对句法树结点依次分类以自动分析句子的功能信息,相应的算法已经在英语和西班牙语上有所展开。功能标注是一个和语义角色标注类似的任务,在同时借鉴了过往的功能标注的方法和语义角色标注工作的基础上,本文首次对汉语上的功能标注问题展开了初步研究。实验表明,通过标注的方法,汉语的功能标注也可以达到较高的性能。本文亦比较了功能标注和语义角色标注的异同。
其他文献
当前,软硬件系统的正确性验证问题已经成为工业界和学术界共同关注的一个大问题。模型检测作为一项对有限状态系统的性质进行自动验证的技术,是验证过程中主要采取的方法之一。
冷冻电镜已经发展为研究蛋白质结构最重要的手段之一,而从电镜图像进行单粒子三维重构是确定三维结构的主要方法。随着相关仪器设备和数据获取手段进步,产生的原始数据量也迅速
随着集成电路制造工艺的进步,嵌入式存储器的集成度不断提高,单位面积上的缺陷数目也日益增加。与此同时,随着嵌入式存储器占芯片面积的比重越来越大,芯片的成品率将主要取决于嵌
随着人们生活方式发生变化,人们的健康问题已经成为现今社会上研究的一个热点的问题。评定一个人的健康指数,要从人们日常生活中得到大量的统计数据,根据这这些统计数据,并结
数据集成技术是企业间和企业内部信息资源交换和共享的关键技术。当企业一个系统的业务活动会影响其它多个系统的业务进程时,数据集成过程中数据在网络间传输的可靠性、实时性
随着全球经济和信息技术的不断发展,越来越多的领域需要可靠的身份鉴别,信息化时代的一大特征就是身份的数字化和隐性化,如何准确鉴定一个人的身份,是信息化时代亟待解决的一个关
学位
本研究结合华南农业大学—中山市农业局合作项目“中山市土壤重金属污染预警系统”,探讨中山市土壤重金属含量的空间分布分析和污染评价。土壤重金属污染不仅破坏生态系统的平
当前计算机技术所应用到的很多领域的数据都具有高维的特点,如计算机视觉与图像处理、信息检索的文本分析、数据挖掘和生物特征识别等。从高维观测数据中发掘其中潜在的有意义
学位
Services Oriented Architecture(SOA)is all architectural style which allowsinteraction of diverse applications regardless of their platform,implementationlanguage
对企业电话系统来说,IP-PBX不仅实现了语音、视频和数据的融合,还有一个非常重要的意义在于它能实现对电话系统的监控和管理。当前,在工业企业、交通运输、公安消防和军事机