现代汉语深度语义标注语料库研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:cjian024156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然语言处理系统的需要。在中文信息处理方面,汉语标注资源急需的是句子级的资源,需要一种可以描述出句子中词语与词语之间的深度语义信息的标注语料库。因此,探求半自动、甚至自动地建设大规模深度语义标注语料库的策略、模型、技术及方法显得极为迫切。语义分析技术是自然语言处理领域中最重要也是最为困难的问题。如何实现有效、深入、自动的句子语义分析,一直是国内外从事自然语言处理的研究者们所关注的重要目标。目前,自然语言处理领域的语义研究主要集中在浅层语义分析。浅层分析虽然降低了语义分析的难度,但是只解决了动核和语义角色的配置问题,对于情态成分以及名核结构所承担角色的内部语义关系并未进行标注,因此还不是句子语义结构的完整揭示。在我们的深度语义标注语料库中,主是是针对九年制中小学语文课本语料进行语义词类和句法语义范畴标注。语义词类指词汇的所属义类。句法语义范畴指语块所对应的语义范畴信息,包括核心范畴、修饰限定范畴、情态范畴等。目前,国内外语义词典中的语义分类体系更多的都是基于自然科学或常识,与这些基于常识的各种语义分类相比,我们研制的语义词类其突出特点是语义分类取决于句法语义分析的需要,可以解决一些仅靠句法分析难以解决的问题,形成了一套面向计算机语言处理的独特的标注体系,对中文信息处理中的句法语义自动分析具有重要意义。根据该指导思想,我们在语义角色标注方法中,使用了一种与传统方法不同的处理策略,我们称之为基于语义词类和语义句型框架的语义角色标注方法,这一方法将汉语语义角色标注从节点的分类问题转化为序列标注问题,由于避开了传统的句法分析环节,使得语义角色标注摆脱了对句法分析的依赖,从而避开了汉语句法分析器造成的时间和性能限制。经测试,新的方法可以取得较高的准确率,并且大大节省了分析的时间,有利于实际应用。本文围绕现代汉语深度语义标注语料库的建设和应用,进行了一系列的相关技术研究,主要成果如下:1、针对语料库的建设和应用需要,研制开发了语义词类词典制作工具、语义词类自动标注工具、语义词类检索统计工具、句法语义范畴检索统计工具、语义词类与句法语义范畴对应关系检索统计工具、句型抽取统计工具、句模抽取统计工具、句法语义范畴辅助标注工具等应用软件,为深度语义标注语料库的建设和应用提供了很好的技术支持。2、收集、制作了 4万多条的语义词类词典,标注了词性、词类和频率等信息,为语义词类的自动标注提供了语言知识支持。3、针对语义词类的自动标注,设计了基于隐马模型的标注算法,结合基于动态规划的Viterbi算法,在训练语料规模偏小、数据稀疏较严重的情况下仍然取得了封闭测试正确率94.3%,开放测试正确率89.1%的效果。4、针对语义词类标注中的未登录词问题,提出了基于知网概念定义的未登陆词处理方案。经研究发现,语义词类系统和知网概念存在的对应关系主要体现在指称类-实体类、陈述类-事件类两个方面,并据此制定了相应处理规则。5、针对句法语义范畴中的语义角色标注,在总结比较现有主流算法的基础上,提出了基于语义词类和语义句型框架的语义角色标注算法,采用IOB策略,利用CRF模型,结合优化的特征参数,取得了分类精度超过91.8%,系统F值达78%的较好成绩。6、基于已标注的深度语义标注语料库,通过开发相关工具软件,建立了语义词类与句法语义范畴对应关系知识库、语义句型框架库、语义句模知识库,为后续的句法语义研究和应用奠定了更好的基础。基于语义词类自动标注和句法语义范畴中的语义角色标注研究,从实践上验证了语义语法学在自然语言处理中的可行性和实用性。本文的研究成果进一步丰富了语义语法学理论与方法,为实现汉语句子深层语义分析提供了新的途径,为自然语言处理领域基于语义分析的应用系统提供了一种新的技术支撑。
其他文献
本文主要研究了突变对和(n+2)-角商范畴的构造.具体组织如下:1.我们在n-外部角范畴中引入了D-突变对的概念.设(C,E,s)是一个n-外部角范畴,D(?)Z是C的子范畴.若Z是扩张闭的并且(Z,Z)是D-突变对,则我们可以构造自等价函子:Z/D →Z/D以及由(n+2)--序列构成的类Ω.作为主要结果,我们证明了三元组(Z/C,,Ω)是(n+2)-角范畴.这个结果推广了周和
非线性奇异微分方程在物理学、生理学等许多领域中有着广泛的应用.由于此类方程包含奇异因子,方程解的正则性较低,给理论分析和数值方法的研究造成了极大的困难.非线性奇异微分方程的理论分析与数值方法研究已成为现代数学的热点课题之一,具有重要的科学意义和实际应用价值,本文针对几类非线性奇异微分方程提出了新的混合增广紧有限体积方法.首先,对于一类非线性奇异微分方程,在对解的奇异性质给出精确渐近分析的基础上,我
本文利用扰动理论、弱线性分析、中心流形定理和规范型方法等数学理论和方法,对几类非线性偏微分方程组进行了动力学研究.本文的第一章,基于扰动理论和弱线性分析,考虑了一类特殊的作为振幅方程的偏微分方程组在一维区域(0,L)上Neumann边界条件下的解u(x,t)的渐进行为.对于稳态解(0,c),将区域长度L作为分岔参数,由扰动方法得到了从稳态解(0,c)分岔出的非平凡解的渐近形式,并讨论了分岔解的稳定
众所周知测度熵和拓扑熵是刻画动力系统复杂性的两个非常重要的量。这两个量之间的关系就是著名的变分原理。Brin-Katok公式和Katok熵公式是熵理论中两个非常重要的公式。压理论是熵理论的一个推广。而不变集的维数也是刻画动力系统特征的最重要的量之一。本文重点研究了动力系统中的Katok公式和盒维数。特别地,对拓扑动力系统和部分双曲微分动力系统我们构造了几个版本的Brin-Katok公式和Katok
我们称一个Hausdorff拓扑群G是极小的(D.Doitchinov[17]and Stephenson[43]),如果每一个单的连续群同态G → P都是一个拓扑嵌入,这里P是任意一个Hausdorff拓扑群。在群范畴中,单的满同态即为同构。在拓扑群范畴中,一个连续的群同构不一定为拓扑同构,但是极小拓扑群满足这一性质。换言之,对于一个极小拓扑群而言,连续的群同构与拓扑同构是等价的。完全极小拓扑群
本文,我们主要研究了两维具有旋转效应的随机欧拉流和由Hurst指标H∈(1/3,1/2)∪(1/2,1)的分数阶布朗运动驱动的一些随机偏微分方程的稳定性.同时证明了具有时滞的三维Navier-Stokes方程弱解的存在唯一性.首先,我们考虑的是二维旋转欧拉方程具有不同初始值条件的解的存在性与唯一性:白噪声的初值条件或L∞(T2)的初值条件.由具有旋转效应的三维Navier-Stokes方程以及β-
本文研究代数整数环上的一些算术性质.第一章,介绍问题的主要背景以及本文的主要结果.第二章,介绍了数论函数上的一类二元运算,称之为正则卷积.1965年,Menon得到下列恒等式:对每个正整数n,有(?)(a-1,n)=φ(n)σ(n),其中φ(n)是欧拉函数,σ(n)是除数函数.本文在正则卷积的定义下,将Menon恒等式推广到剩余类有限的Dedekind整环上.主要结果见定理2.3.2和定理2.3.
本文中我们主要研究了调和数.对任意正整数n,设Hn=1+1/2+1/3+…+1/n.被称作第n个调和数.令Hn=un/vn,(un,vn)=1,vn>0.调和数的研究有着非常悠久的历史.1862年,Wolstenholme证明了对所有大于3的素数p,都有p2|up-1.众所周知,对任意不小于2的正整数n,Hn都不是整数.对任意素数p,用Jp表示由p|un的正整数n组成的集合.1991年,Eswar
随着微电子技术的发展,在微观尺度上控制磁相互作用成为一个重要的研究课题。其中最有效的方法之一是通过Ruderman-Kittel-Kasuya-Yoshida(RKKY)间接交换相互作用来控制磁相互作用。RKKY间接交换相互作用是指局域自旋通过传导电子所产生的一种间接的磁交换相互作用。早期人们研究了局域自旋通过平衡态的自由电子气、石墨烯、量子点等系统所产生的RKKY间接交换相互作用。最近,人们研究
本文主要研究了几类半线性椭圆型方程(组)解的存在性、非存在性以及其它定性性质,包括对称性、类共形不变性、一致有界性等.全文共分四章.第一章研究一类半线性椭圆型系统在Rn中正解的存在性与非存在性,其中n≥3,p,q>0,max{p,q} ≥ 1.我们得到了在次临界情形该问题的正解以及在超临界情形该问题的稳定解的不存在性,临界情形能够对解进行分类的充分必要条件,以及局部稳定解存在的Joseph-Lun