论文部分内容阅读
比喻作为一种修辞手法不仅是一种语言现象,也是一种社会现象,更是人类语言和思维的中心问题之一。因而对比喻的识别与解释不仅涉及到文学理论同时也涉及到思维过程等多个领域。由于比喻覆盖的广泛性和使用的重要性,比喻的自动处理在某种程度上已经成为基于篇章处理的自动文摘、机器翻译、聊天机器人、信息检索、计算机辅助教学等领域的瓶颈。本文围绕汉语比喻句进行了深入而细致的研究。在遵从现代比喻理论的基础上,总结出了比喻语言的四大特点以及比喻的语义特征;给出了比喻句的形式化方法以及比喻句的分类体系;提出并实现了一整套比喻句的自动分析与判定方法,能大规模的分析和判定比喻句。在此基础上,本文开发了针对大规模比喻句的自动分析与判定系统,并为该系统申请了相应的保护措施。实验表明,本文所提出的思想和方法是富有成效的。当前对于比喻句的识别处理已有不少研究,如厦门大学杨芸利用角色依存模型对比喻句进行形式化处理和识别、浙江大学黄孝喜在隐喻语言的形式化描述和分类识别问题上使用依存关系作为形式化的基础、贾玉祥利用《词林》和《知网》进行比喻句的识别。虽然当前的研究已有不少,但就比喻句中候选本体和候选喻体的抽取这一基本问题上,要么单纯的依靠依存关系,要么手动指定,然而当前依存关系的准确率并不高,手动指定虽避免了依靠依存关系选取候选本体和候选喻体的弊端,但却并不适用大规模比喻句的处理也不适用于现实应用。本文的研究工作主要体现在以下几个方面:首先,本文提出了一种机器可理解的、形式化的比喻修辞句的结构与评判标准,并基于词性标注、句法分析和依存分析将比喻修辞句结构分为简单与复杂两种形式,针对基于词性标注的简单比喻句,本文结合比喻句的特点以及简单比喻句的结构化特征提出了简单比喻句的四大形式化结构与候选本体和候选喻体的四大谓词公式。其次,针对复杂比喻句,本文研究出了一整套可行的处理基于句法关系与依存关系的复杂比喻句的形式化方法和基于该形式化方法的候选本体和候选喻体的公理,其中针对句法关系的形式化,本文提出了基于句法分析的多余成分删除方法以及针对依存关系形式化提出的基于依存关系的候选本体和候选喻体的范围缩小方法。最后,在比较了基于《词林》和《知网》的比喻判定方法以及基于《知网》和WordNet的比喻判定方法的优劣之后,本文选择了后者作为比喻判定方法的词典,并建立了一整套比喻修辞手法的自动判定方法以及与上述方法相配套的比喻修辞句的自动分析流程。本文的特点是结合句子成分划分方法和依存关系,去除句子的修饰成分,达到获取句子的主干成分的目的,进而将复杂比喻句转为简单比喻句,从而筛选出复杂比喻句的候选本体和候选喻体,并利用《知网》的英文义原项和WordNet计算二者的语义相似度,最终根据比喻词的词性、候选本体和候选喻体的相似度及其义原在WordNet中的特征,判定句子是否为比喻修辞手法以及是明喻表达还是隐喻表达。本文所提出的方法摆脱了对具体的比喻句句式和框架的依赖,因此具有更强的适应性,同时人们在使用比喻时具有极大的随意性,因而本文方法也更贴近实际。同时本文先进行分词和词性标注,并根据比喻句的词性标注的特点对比喻句进行处理,在分词和词性标注无法解决的情况下进一步对比喻句进行句法分析,在句法分析无法解决的情况下才使用依存关系对比喻句进行处理进而摆脱了对依存关系的过度依赖,从而避免了因依存关系准确率不高对本文方法准确率的限制。另一方面,由于汉语句式的复杂性和句子内容的多样性以及多个名词代词的同时出现,很多的方法在识别比喻句时会有句子长度或是句式的限制,而本文无论是对简单的或是复杂的比喻句都能判定。经过试验验证,本文方法的正确率达到了 90.13%、召回率达到了 85.53%且F1值达到了 87.76%,可见本文算法的有效性及实用性,因而我们也为该算法向国家知识产权局申请了相应的保护措施。