基于组合范畴语法的汉语句法分析及树库构建

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:tangtang4211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网数据是未来经济社会的重要资源,其中自然语言占据较大比例,使自然语言处理的进一步研究更加迫切。自然语言处理有连接主义和非连接主义两条路线。近年来多层神经网络上的深度学习被用于自然语言处理的各个方面,使连接主义成为研究热点,而非连接主义的自然语言处理进展可能被忽视,例如基于形式语法的句法分析。句法分析是自然语言处理的中间环节,直接影响句子的语义解释、篇章理解、机器翻译、问题回答等下游任务的完成质量,一直是自然语言处理领域的核心课题。组合范畴语法有对上下文适度敏感的生成能力,用函数组合解释状语和补语,用类型提升解释宾语提取,支持句法、语义的同步分析,一经提出就受到句法分析领域的关注。汉语相较于印欧语词类缺乏屈折变化,造成短语任意套叠的句法现象,使组合范畴语法不能直接应用于汉语的句法分析。为此,本文对如何运用组合范畴语法分析汉语句子结构进行研究,主要贡献如下:(1)分析汉语词类或短语结构的句法类型变化,归纳句法类型转换体系,形成带有范畴转换的组合范畴语法(CCG-C~2)。用句法类型(即范畴)转换解释短语套叠,使组合范畴语法能够用于汉语句法分分析。在构建树库过程中,逐渐明确词类和特殊词的典型句法类型,形成词类和短语结构的非典型句法类型标记体系。(2)为及时消解句法歧义,提出人机交互的句法分析过程。为限制和及时消解句法歧义,每次计算句法类型结合传递时,由用户按需选择句法类型转换,然后由机器完成句法类型结合,再由用户消解句法歧义,最后形成的传递闭包只含一棵分析树。(3)构建了200句(含727个小句)的CCG-C~2树库和相应的句法歧义片段库。树库表明,35%的短语结构形成需要句法类型转换,使用非典型句法类型的短语直接成分中99.67%是实词或短语,句法分析中57%的句法类型结合因消解歧义被放弃。歧义片段库记录短语重叠的上下文和保留哪个短语的选择,等积累足够多时,可从中探索是否存在结构歧义基本单元,以利于机器完成句法消歧。
其他文献
为了进一步发展逻辑代数和解决逻辑证明中的若干问题,Novák提出了EQ-代数的概念.EQ-代数是一类包含三种基本二元运算(∧,(?),~)和一个最大元1的特殊代数结构.滤子在各类逻辑代数中扮演着重要角色,本文对EQ-代数上的滤子理论进行研究,主要结果如下.一、在EQ-代数中引入L-模糊正蕴涵前滤子、L-模糊蕴涵前滤子以及L-模糊奇异前滤子的概念,给出三类L-模糊前滤子的实例.以λ-截集为中介,得到
学位
丢番图方程是未知数个数多于方程(或方程组)个数的方程(或方程组),其解为整数解、有理数解或其他带有限制的解.众多学者在研究素变量混合幂丢番图方程的过程中得出了很多很好的结果.关于此类方程,其中一个重要的研究课题就是对方程例外集的研究.对于数论中的许多问题,都可以通过对例外集的不断缩小来逼近理想的结果.本文研究表正奇数n为(?)的情况,得出了其对应的例外集.本文借助堆垒素数论中的圆法,运用了圆法中的
学位
本文主要内容围绕一类修正的Holling-Tanner食饵-捕食者模型,在随机网络下研究扩散项、网络结构以及时滞项对于系统稳定性和分岔行为的影响.全文共分为四章,其主要内容如下:在第一章,主要介绍了具有扩散项、时滞项的食饵-捕食者模型相关研究背景及意义、研究现状和本文的主要工作.在第二章,根据真实生态系统的种群间相互作用、扩散以及迁移等生物机制,建立了捕食扩散随机网络系统,主要利用线性稳定性分析、
学位
颅内出血是指颅骨以内的脑组织出血,对颅内出血患者进行准确诊断、及时治疗能有效提高病人的康复率。利用深度学习技术对颅内出血进行研究,是为了辅助医生进行临床决策、降低误诊率。本文对颅内出血的研究从两方面进行,分别是颅内出亚类型分类和颅内出血病灶分割。在颅内出血亚类型分类中,已有的研究大多基于卷积神经网络,但这些研究忽略了如下问题:网络架构中引入三维卷积神经网络,或联合循环神经网络会给计算机造成负担,挤
学位
1例54岁男性食管癌患确诊后接受TP方案化疗(白蛋白结合型紫杉醇480 mg静脉滴注1次+顺铂45 mg静脉滴注3次)联合免疫治疗(卡瑞利珠单抗200 mg静脉滴注1次),每3周为1个周期。治疗2周期后患者出现心悸不适,复查甲状腺功能五项提示fT3、fT4、TotT3、TotT4较正常水平大幅升高,TSH<0.01 mIU/L,甲状腺球蛋白抗体和抗甲状腺过氧化物抗体滴度高,心电图提示窦性心动过速,
期刊
本文的工作主要围绕带有时滞影响的两个流体动力学模型展开,即具有双时滞的三维不可压Ladyzhenskaya-Lions模型和具有无限变化时滞的三维不可压LadyzhenskayaLions模型,研究了它们解的适定性和长时间行为.本文共分为四章.第一章首先介绍了流体动力学相关模型的研究背景和研究现状,然后概括了本文主要的研究内容,并给出一些常见函数空间和拉回吸引子基本理论.第二章研究了有界区域上具有
学位
变量为三次型除数函数均值可表示为(?)其中,dk(n)是除数函数.本文,我们借助经典圆法和指数和估计的方法,研究了当k=2,l=5和k=4,l=6时的除数函数均值问题,分别得到了其误差项具有幂节余形式的渐近公式,即定理1对于x≥2,我们得出渐近公式其中(?)定理2对于x≥2,我们有(?)其中(?)i,j(0≤i≤j≤3)是整数.
学位
随着大数据与信息技术的崛起,逐渐渗透到各个领域,其中医疗行业是应用最广泛的领域之一。利用医疗数据进行构建相关体系的模型预测,对提供及时有效的医疗决策具有重要的现实意义。而癌症是医学界的难题,因此如果能够实现对癌症存活性的分类预测,那么就能帮助医生在癌症治疗时做出更正确的医疗决策。肺癌位于癌症死亡率首列,每年有成千上万人死于肺癌,因此本文拟对肺癌数据进行存活性分类预测。使用美国国家癌症研究所SEER
学位
就业是民生之本,就业问题关系到经济发展和社会和谐稳定。改革开放以来,随着社会经济的发展,我国的产业结构和就业结构均发生了巨大的变化,但是,三次产业就业与产业发展逐渐开始出现不平衡的问题,就业结构问题逐渐突出,已成为制约区域经济社会协调发展的重要因素,研究就业结构问题具有重要的现实意义。本文对郑汴洛新地区产业结构、就业结构的关联关系进行了研究,预测了未来一段时间郑汴洛新地区的产业结构调整系数和就业结
学位
随着我国经济社会进入高质量发展阶段,城市化水平不断提高,水资源在新时代的供需失衡问题也随之加剧,水资源短缺已成为阻碍经济社会与生态环境协调发展的难题。科学评价并准确预测水资源承载力,对经济社会高质量发展、水资源合理开发利用具有重要意义。本文以郑州市和武汉市为研究对象,从水资源、经济社会、生态环境三个维度入手,构建水资源承载力评价指标体系,对两座代表城市的水资源承载力状态进行评价;构建机器学习预测模
学位