汉语复句关系自动判定研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:show20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理已经完成了字处理,较好地解决了词处理,正在向句处理阶段迈进。汉语复句作为一种语法实体,上连分句,下连篇章,在分句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面属性。然而,由于复句本身所具有的复杂且特殊结构,使得复句成为句处理中的一大亟待解决的难点。目前,对于复句的计算机处理研究不多见。汉语句子从结构上可以划分为单句和复句两大类。对于单句的研究主要侧重于句子成分以及成分之间关系的分析;对于复句来说则不仅仅是停留在成分分析这一层次上,还需要深入考察复句的直接构成单位——“分句”之间的内在联系。因此,本文在充分研究了复句的定义、单复句的差异以及复句分类等知识点的基础上,提出了“分而治之”的策略——首先实现复句的切分,然后在此基础上进一步实现复句关系的自动判定。本文的研究内容主要包括两个部分:第一部分是实现复句的切分。通过确定逗号的功能,来判定复句的切分点,将复句准确地划分为分句的有序集合:第二部分是复句关系的自动判定。对于分句间隐含的逻辑语义关系,我们通过充分挖掘句中所包含的词汇、词性的内在联系,最大化地利用句中存在的关联词语的指示作用,最终较好地实现了复句关系的自动判定。根据上述每一部分研究内容的特点,我们又分别选取了最佳的统计模型:支持向量机(SVM)和条件随机场(CRF)。为了使模型获得较好的分类精度,通过观察、分析大量相关的语言现象,将语言学本体知识融入到统计模型中,从而实现了模型的最优化。实验所使用的语料为TCT973树库(Tsinghua Chinese Treebank)。该树库目前已有100万汉字的规模。最终,各项实验的开放测试和封闭测试都取得了理想的效果。从分步实验来看,复句切分获得84.70%的正确率,复句关系的自动判定正确率最高达到94.86%;综合实验也达到了83.26%的正确率(以上报告的均为开放测试结果)。随着特征的改进以及关联词语标注信息的增多,系统有望取得更加好的判定效果。
其他文献
新课改背景下,教育领域也面临着全新的改革,尤其是在素质教育的逐步推行之下,人才培养模式亦不再局限于单一化,而是形成多样化的人才培养格局。在竞争激烈的就业市场下,强化
本文阐述了在生产山梨醇酐单硬脂酸酯过程中,采用自行设计的热油加热罐和旋转叶片冷却分离器,改进了生产设备, 减少了跑料和污染环境的现象,提高了产品质量.
近年来,湖北省武汉市江夏区出生人口综合性别比治理工作由一般行动向重点整治转变、由单打独斗向部门配合转变、由重点行业向全方位拓展转变,取得了一定的成效。出生人口综合
汉语重动句是一种极具民族特色的句式,它产生于宋金时代,距今已有八九百年的历史。但因古代汉语中VOC句式(C即本文的R)的存在,重动句的使用并不多见,直至明清时代VOC句式衰落并逐渐
<正>内蒙古呼和浩特市玉泉区认真落实二胎全程优质服务,加强出生实名登记管理,严厉打击"两非"行为,全面开展集中整治出生人口性别比偏高问题专项行动,全区综合治理出生人口性
软土问题是当今工程界面临的最常见而又危害最大的地质灾害之一,对工程安全、城市建设、环境保护、经济发展和人民生活构成的威胁越来越突出。我国对于软土的研究主要集中在滨
作爲我國文字學史上现存的第一部楷書字典,《玉篇》是繼《說文解字》之後的又一部重要字書渲兴珍浀拇罅慨愺w字,成爲魏晉南北朝時期文字使用混亂的真實寫照。今天我們所見
文学翻译是翻译中的重头戏,要做好文学翻译需要多方面因素的协调运作,如文化、历史、宗教、政治、心理学等。本论文采用了比较研究结合理论研究的方法,即从翻译美学和认知图
本文运用标记理论的基本原理按照Lyons对标记的分类方法从形式标记、语义标记和分布标记三个方面重点讨论了语词系统中构成两性对立的词语对立所反映的性别标记的对称与非对
服务型政府概念是作为社会主义国家的中国特有的,因此,服务型政府的理论基础也主要来自马克思主义理论。当然,西方行政学发展史上先进的民主行政理论也为服务型政府研究提供