面向中文信息处理的复句关系词自动标识研究

来源 :华中师范大学 | 被引量 : 33次 | 上传用户:zhx35003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复句作为汉语语法的重要实体单位,在语法学界受到较多关注,且相关理论成果较多。但是,从中文信息处理的角度来看,汉语复句的信息化处理的相关成果还较少,复句信息工程尚未取得实质性的突破和进展。究其原因,一是研究还不全面深入,现有的成果还未囊括复句信息处理的所有环节和难题;二是大多数研究成果都是面向人的,很多方法在信息处理中操作性不强;三是各个研究相对孤立,未将所有环节串联起来,形成一个有机的整体。目前,复句的信息化研究主要是分句与非分句的识别、复句层次关系的识别,而这些研究都以关系词的提取为前提。可见,一方面,关系词的自动提取是其他各项研究工作得以开展的基础;另一方面,关系词作为构成复句的一个部件,本身也需要深入研究。在这种背景下,本文以面向中文信息处理为出发点,以邢福义先生的复句理论为指导,对复句关系词的自动标识方法进行研究和探讨,并以自动机理论、形式化逻辑等为辅助手段,对关系词标识涉及的问题进行建模,对总结的规则进行形式化描述和存储,并研究基于规则的关系词自动标识的方法,已达到自动标识复句关系词的目的。本文的研究主要从以下四个方面展开:1、全面总结影响关系词自动标识的因素。影响关系词标识准确率的因素主要有五类,分别为:关系副词的影响,介词的影响,关系标记不同用法的影响(同形异义词、同形异构词、同形异类词的关联和非关联用法的影响),关系标记搭配的影响和关系标记隐现形式的影响。对每一类影响因素,主要分析其各自的特点,并讨论对应的处理方法和策略。2、对标记连用现象进行深入研究。主要研究二标记连用和三标记连用时各个标记的语法语义功能和类别。对于二标记连用,归纳出矛盾类和限制类两种类型。这种类型的区分,既可以在计算机处理时减少不必要的计算,也可以作为复句分析过程中的一个切入点。三标记连用现象中,识别不同的关系词所需的方法不同,没有一个统一且粒度较细的策略,需要具体问题具体分析。3、研究句式特点与关系词标识之间的关系。主要考察三类句式:第一、格式固定且无歧义,但语义关系不好确定导致关系词辖域确定困难的句式,称之为特殊句式;第二、扩展句式,普通的基于搭配理论的算法不能很好地处理扩展句式的关系词标识问题;第三、多重复句的普通句式,复句实例的标记序列中含有多个标记对。对于特殊句式,采用表里关联的方式将标记序列与处理结果一一对应;对于扩展句式,采用自动机理论进行建模,既保证了可操作性,又保证了对语言现象的概括性;对普通句式,主要是把问题抽象化,并转化为数学模型,利用解空间的求解来对标记序列进行处理。针对上述句式,建立规则库,并探讨了基于规则的关系词自动标识方法。4、对部分充盈模态和非充盈模态下关系词的标识问题进行研究。文章首先对分句的语义关联理论进行了进一步地补充,提出3大类14个语义关联特征,并制定了特征分析的优先图,修正了分句语义关联度的计算方法。充盈模态下的关系标记主要考察“不是……就是……”,“虽然……但是……所以……”等。研究发现,对“不是……就是……”,可利用极值分析法处理;对“虽然……但是……所以……”,暂无较好的处理策略,需要建立常识知识库。非充盈模态下主要是对三分句句式的关系词的识别进行考察,发现从关系标记的典型和非典型属性入手,通过结合搭配知识,并利用分句的语义关联特征,可较准确地标识出各个分句中的关系词。
其他文献
介绍了电炉烟气余热回收装置,并结合具体工程讲述了该套装置在工程中的实际应用情况,从技术经济的角度分析了该套装置与传统烟气水冷设施相比存在的优势,为今后国内电炉的升
建立了带钢在卧式连续热处理炉内传热过程的数学模型,并通过TDMA方法求解得到了相同炉温制度下不同带钢厚度、宽度和速度对带钢温度分布的影响。计算出了特定工况下的极限带
棒材连轧生产线可采用低温轧制工艺实现节能降耗。通过热模拟试验回归出了变形阻力模型,建立了轧制过程温度模型并计算出了轧机负荷。金相试验表明,适当降低轧制温度有利于晶粒
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
"疫情防控越是到最吃劲的时候,越要坚持依法防控,在法治轨道上统筹推进各项防控工作,保障疫情防控工作顺利开展。"习近平总书记在中央全面依法治国委员会第三次会议上强调,要
本文利用美国KAY Multi-speech 3700和PRAAT等语音分析软件,采用石锋教授提出的“语调格局”思路和语调起伏度的研究方法,在对蒙古语标准音自然焦点陈述句、祈使句、疑问句和
研究语言的功能、交际过程的趋势促使人们思考句子之上更高层级的交际单位——语篇。语篇研究在经历了传统句法研究之后,终于将关注的目光由作为语言句法单位的语篇片段投向
本文研究了三种混沌随机数生成器,其中包括伪随机数生成器(Pseudo-random Number Generator,PRNG)也有真随机数生成器(True Random Number Generator,TRNG)同时,我们也研究了
教学PPrr作为一种便捷的演示方式,在课堂教学中得到广泛应用。本文在对扁平化设计含义阐释的基础上,试图将这种风格应用到教学PPT的设计中,为教师高效设计教学PPrr提供了一个全
三國時吳國韋昭所著的《國語解》,共有五千六百多條注釋,這些注釋用三國時代的語言解釋《國語》中的語言文字,為我們研究從秦到三國時代語言文字的演變提供了極其豐富的資料,