论文部分内容阅读
文本蕴涵研究的主要任务是文本蕴涵识别,在自然语言处理中有很多应用。但现有文本蕴涵识别效果离大规模应用还有一定距离。一个重要原因是文本蕴涵及其识别涉及的语言理据和方法还有待进一步深挖或改进,这正是本文要做的主要工作。研究内容方面,现有汉语文本蕴涵理据的研究主要集中在词语关系、句法转换等。本研究尝试利用语义-文本理论(Meaning-text theory)的词汇函数完善对词语关系的表达和分析,特别是将意象图式作为文本蕴涵的理据,用来表示文本蕴涵识别所需的语言知识信息。文本蕴涵的识别方法方面,现有的句法依存分析不足以揭示文本蕴涵所需的语言信息。本研究采用概念依存分析来完善句法依存分析。但概念依存分析也无法挖掘文本蕴涵背后的所有语言理据,如元语言功能、抽象概念与具体言语表达间的对应关系。词汇函数可用来描述这些理据。意象图式之所以能成为文本蕴涵的理据,是因为其具有理想性、规约性、可预测性。对常识加以规约化,可以提高文本蕴涵识别中语料的覆盖率。词汇函数和意象图式都有规约化常识的功能,两者在规约化常识方面具有互补性。文本蕴涵识别作为文本推理、理解的主要过程,涉及各种认知机制,如概念整合、隐喻、转喻等。针对这些问题,不是单一分析方法就能明确所有的理据,也不是单一理论就能够解释所有的现象。为此,本文采取了综合的方法和多角度的解释。比如,利用词汇函数来填补基于图式映射的概念依存分析的许多空白,除了概念整合理论外,还利用其它一些理论如默认理论、关联理论、顺应理论等来解释汉语文本蕴涵识别中涉及的有关问题和现象。全文分九章,主要内容或观点如下:第一章是绪论,说明文本蕴涵的概念、选题缘由、研究现状、内容、目的和意义,并介绍本研究主要理论背景、方法和资源。第二章对文本蕴涵的类型加以划分和界定,并讨论文本语义蕴涵识别方法及其识别过程中涉及的理据。本章主要利用框架依存分析和词汇函数对语义蕴涵进行分析。分析结果显示,概念依存分析可以有效识别文本语义蕴涵;概念依存分析与词汇函数在文本蕴涵识别中具有互补性;转喻不一定都基于意象图式。第三章研究文本语义预设的识别和涉及的理据。分析表明,意象图式在文本语义预设识别中有重要作用,概念依存分析的根本理念或操作是从概念结构到具体语句间的图式投射,而不是体现在对具体文本内部语义关系的分析。第四章研究文本规约会话含义的识别和理据并探讨文本蕴涵识别中常识的规约化问题。分析表明:(1)文本规约会话含义最能体现各类意象图式和概念依存分析的作用,特别是框架和框架依存分析的作用;(2)以意象图式为理据的文本蕴涵识别过程中,基于意象图式的压缩有效地扩展了概念整合理论有关关键关系压缩的范围;(3)概念依存分析与概念整合间有着密切的联系;(4)抽象、元语言性概念与具体、体验性表达间的对应蕴涵关系的识别是对基于概念依存分析、词语关系、句法转换等文本蕴涵识别方法的补充。如何做好元语言性概念与体验性表达之间的衔接是完善文本蕴涵识别的重要任务之一。第五章讨论文本结果蕴涵的识别和语言理据。分析表明,脚本在文本结果蕴涵的识别中扮演重要的角色;句法和词语关系也能体现因果关系,也能成为文本结果蕴涵的理据。第六章基于前面的研究和对语料的梳理,初步讨论面向自然语言处理的汉语文本蕴涵识别有关资源建设问题。不同资源的构建必须考虑语言作为一个整体系统的特点。所有资源的构建,其目标是一致的:为自然语言处理领域的汉语文本蕴涵识别服务。这就要求不同资源的构建,对语料的覆盖上既要做到全面,又要避免过多交叉,达到合适的离散性。另外,不同资料间尽量避免冲突,如果无法避免冲突,也需提供解决冲突的机制。由于构建的资源是面向自然语言处理的,因而所有意象图式库必须是机器可读的,这就需要计算机专家和人才的参与。第七章是本研究应用举例。汉语文本蕴涵识别研究的应用,既有比前面文本蕴涵识别研究简单的地方,也有复杂的地方。本章绝大部分的例子都取白汉语水平考试试题,同时体现了本研究在白然语言处理领域汉语文本蕴涵识别和汉语作为外语教学中潜在的应用价值。第八章讨论本研究中遇到一些重要问题。包括:文本蕴涵识别的难度、概率、文本语义预设的可取消性和投射性、文本蕴涵识别涉及的隐喻和转喻等。第九章是结论,对本研究加以总结并指出下一步可能要进行的工作。