面向信息处理的介词“到”及其结构的自动识别研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:fredzhuca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词“到”是从动词发展演化而来,“到”的词性及其相关结构的处理,一直受到语言学者的广泛关注,但是存在较大的分歧,给语言教学和研究造成了困惑,也不利于信息处理。本文以1990年到2002年的《作家文摘报》为研究语料,以中科院计算机所汉语词法分析系统ICTCLAS为工具。先研究“到”的词性问题,再对“到”进自动识别,最后对含有介词“到”的介词结构进行边界识别。本文共分五章:第一章是绪论部分。介绍了选题的意义和前人的研究成果,并借鉴前人的研究成果,提出自己的研究方法,以及本文要达到的目的和对语料的处理。第二章是关于“到”的动介区分问题。以真实的语料为基础,分析“到”和具体语境的关系,先根据工具书区分出含有语素“到”的成分;再根据特殊的前置成分和后置成分来区分;最后根据能充当介词结构的成分来区分。为下文对介词“到”的自动识别及其结构的边界识别提供知识资源。第三章是介词“到”的自动识别。本章对含有语素“到”的成分进行识别,通过词表和消除歧义规则对含有语素“到”的成分进行分词和标注;对“到”是动词时进行识别;“到”是介词时进行识别。形成了识别规则,设计出识别算法。第四章是含有介词“到”的介词结构的边界识别。根据介词结构“到+X”边界特征和互信息理论,统计介词结构的右边界情况,总结出规则,进行边界识别。第五章是结语。提出本文的主要结论和以后的研究方向。
其他文献
本文从历史时期城市的界定标准出发,在对前人研究成果充分梳理的基础上,以民国江苏省句容县为载体,对几种界定标准进行对比考察,研究这几种标准下句容的城镇化水平,结果显示,
从某种意义上说,翻译是译者进行选择和取舍的过程。在此过程中,译者需要先理解,再转换,既而表达,即涉及一系列的认知活动。一直以来,学者们不遗余力地寻找一套能解释并进一步
<正> 美国麦当劳至今成立不过三十多年,如今却在世界上拥有万余家店面,且以每年增加500家的速度不断发展。它被称为世界第一大速食连锁店是当之无愧的。麦当劳的成功,在很大
论文由序论,本论,结论三部分组成。序论中阐明了选题的理由、目的、意义、研究方法及这一课题相关研究的历史回顾。本论第一章主要分析研究了蒙古谜语形成发展的历史阶段。从
目的:探讨电阻抗法稀释模式在EDTA依赖性假性血小板减少症(EDTA-PTCP)中的应用。方法:样本对照研究。结合显微镜复检规则,选择全自动血细胞分析仪PLT计数<100×10~9/L,镜检筛
本文在最简方案的框架下,结合小句理论,对英汉难易结构进行对比分析,旨在探求这两种语言现象在生成方式上存在的共同点与差异。难易结构作为一种普遍的语言现象,有两个特点:
文章从句法、语义、语用三个平面对“形容词·趋向动词”结构进行了全面的考察与描写。文章具体分析了“形·趋动”结构中“形容词”和“趋向动词”双向选择的条件,得出了如
本课题主要着眼于修辞研究大类中(言语)修辞的运行机制研究。在文中我们将立足于修辞本体,综合借鉴现代认知科学、语用学、信息论、系统论和控制论等相关研究成果,着力研讨修
目的:了解门诊处方不合理情况,规范门诊用药。方法:抽查9300张2013年1~12月电子处方,将其中不合理处方按照不合理用药类型分类,对其中有代表性的案例进行分析点评。结果:不合
现实世界致使现象的普遍存在,使得致使结构成为世界各语言中不可逃避的语言现象。“(NP1) +V1 +de+ (NP2) +VP2”被认为是汉语中一种比较复杂的致使构式。本论文在认知语言学