“给X+V”格式中介词短语“给X”的边界识别

被引量 : 0次 | 上传用户:k123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语语料库建设是一项系统工程,可以分为自动分词、词性标注、句法分析和标注及语义语用分析及标注四个层次。就中文信息处理说,目前特别要集中精力解决好“句处理”(句法分析和标注、语义语用分析及标注)问题。而介词结构是现代汉语中一种相当重要的短语结构,其的自动识别对于进一步进行句法分析具有重要意义。介词既具有共性,也具有很强的个性。因此,本文选取介词“给”来进行个案分析,试图通过对“给X+V”格式中介词短语“给X”的自动识别来为介词结构的自动识别和句法分析作出贡献。在前人研究的基础上,我们立足于语料库,对“给X+V”格式及相关问题进行了详尽考察:第一章主要是对“给”前成分进行分析。由于序列“V给NP”可能发生结构定界歧义,即:V/给NP和V给/NP,因此要对介词短语“给X”的边界进行识别,就要先确定格式的定界问题。我们区分了两种不同组合中的“给”前成分V,并将其分别整理成表。第二章主要是对与“给X”相关的结构进行分析。通过分析语料,我们发现有的动词一旦再和简单趋向动词等组合,形成一个整体,其组合能力就会发生极大的变化,能与“给X”相组合形成比较固定的结构。在有些特定的格式中,虽然介词“给”的语义发生了一定程度的虚化,但是本文都将其列入研究范围,不做区分。第三章主要是对格式“给X+V”中的核心动词V进行分析。通过分析统计得出:“给X”基本上是与动词直接连接,“给X”与V之间还有其他修饰成分的例句也只占极少数(占2.11%)。而能进入此格式的动词主要是二价动作动词,其次是三价动词,一价动词则比较少。我们把不能跟“给X”组合的动词列成了一个词表。第四章是本文的研究重点。主要对格式“给X+V”中“X”的句法形式进行了详尽的描写和分析。“X”基本为体词性成分,且74.02%是由单个的词组成,25.98%是由复杂短语组成。复杂短语中有的短语含有动词,但大都具有比较明显的形式标记。第五章主要是在本体研究和形式表达的基础上,设计出识别介词短语“给X”的算法,并将其进一步形象化,作出了识别流程图。由于本文既基于大规模语料库,又面向计算机自动识别,因此本文采取了定量分析、形式描写和统计数据相结合的方法,通过对语料进行标注、分析和处理,得到了大量基于语料库的词表,十分有助于介词短语“给X”的边界识别;提炼出了较为精密、形式化的规则,供给了计算机形式化的表述。但是本文仍存在一定不足,需今后进一步努力。
其他文献
针对着装人体的热湿舒适性问题,改进了Fiala的人体多节段热调节模型,模拟了"环境—服装—人体"的瞬态传热传湿过程,人体模型中考虑了热量在人体组织中传递滞后的影响,建立人
<正>一、教学目标1.教学目的与要求:①探索文章主旨,了解"文革"给国家和人民带来的灾难,体会文章的思想内容。②揣摩文章质朴的语言中所包含的深挚的情感。③正确认识人性并
良好的品质影响人的一生,对幼儿思想道德的教育可以增强幼儿道德观念的树立。幼儿时期具有极强的可塑性,抓好幼儿时期的思想教育是必然的,可以为幼儿的成长打下坚实的基础。
无皂乳液是一种比较新型的乳液聚合技术。利用离子型小分子亲水单体和非离子型大分子亲水单体与两亲性单体共同参与共聚的无皂乳液聚合,制备了高固含、稳定的苯-丙乳液。通过
童话,是儿童的一道精神食粮,承载了儿童太多的童年梦想。童话,于儿童意义巨大!小学语文教材中,童话的数量日趋增多,反映了童话在小学语文教学中的特殊地位。然而,童话教学现
随着社会的发展,现代生活日益多变,小学生越来越多的出现情绪问题。农民工子女小学生作为一个特殊的群体正处于接受教育和发育身体的关键期,如果在这一关键时期能够在身心上
如何提高英语写作水平对于广大英语教师和学习者来说一直是个难题。传统教学模式比较单一,并不是所有的教师都注重从篇章整体构思来引导学生写作,教师批改作文也大都停留在检
流动商贩的产生是我国推行城市化、经济结构调整的必然结果,同时城市规划的不合理、市民的需求造就的市场也是商贩产生的重要原因。本文从分析我国城市流动商贩的历史入手,概
随着广告业的蓬勃发展,大学校园广告快速发展,已经成为广告领域的重要组成部分。本论文主要通过文献阅读、图书资料查阅、网上浏览、个案分析以及到有关大学校园调研等方式,
2008年,江苏高考开始对选修历史的考生考察名著阅读,"要求了解有关名著名篇的主要内容、艺术特色等。"规定了《三国演义》、《红楼梦》等十部名著作为必考篇目。这样名著才开