论文部分内容阅读
隐喻是自然语言处理的棘手问题之一,近几年来开始受到从事中文信息处理研究的学者们的关注。隐喻大量地存在于我们的语言生活中,Lakoff&Johnson(1980)指出隐喻不仅仅是语言的修辞手段,而且是人的一种思维方式。如果隐喻的识别和理解不能很好解决,将成为未来自然语言处理技术发展的瓶颈。
本项研究面向语言信息处理,全面地考察汉语名词性隐喻的分布,总结和发现名词性隐喻的表达规律,利用机器学习的方法探索短语层级的隐喻识别,为全面的隐喻自动识别和理解奠定基础。在研究过程中取得如下创新成果:
(1)提出名词隐喻的层级描写,在语义分类基础上建立以源域(sourcedomain)为核心的名词隐喻知识架构。
本文通过考察n+n名词隐喻在构词-->词汇-->短语-->句子-->篇章等不同层级的分布规律,建立面向文本内容理解的名词“隐喻”的工程定义,确定了面向中文信息处理的隐喻研究重点:即以短语隐喻表达为核心,探索源域到目标域(targetdomain)的隐喻映射规律。同时从构成、句法、语义等角度对名词隐喻进行考察,建立了汉语名词隐喻的知识架构体系。
(2)设计和建造了汉语隐喻知识库,在《中文概念词典》(CCD)上建立源域和目标域的映射关系,增加了CCD关于隐喻映射的描述。
汉语隐喻知识库是计算机处理隐喻的重要资源。本文从大规模真实语料中发现隐喻现象,提炼加工了汉语名词隐喻词表,在此基础上又利用《现代汉语语法信息词典》(GKB)和CCD的基础平台,搭建出新的名词隐喻知识库。名词隐喻知识库一方面利用了CCD中概念存储编号的唯一性,通过人工概念消歧,建立了一个源域到多个目标域的映射关系;另一方面名词隐喻知识库的属性字段也继承了GKB的部分成果。
(3)提出基于机器学习方法+规则辅助的汉语名词隐喻识别策略,利用机器学习的分类技术解决隐喻的识别问题。
本文把机器学习方法纳入隐喻计算处理的框架,隐喻识别过程被描述成隐喻义与字面义的分类问题,分别对单个词语和“n+n”模式进行识别实验。单个词语识别充分利用隐喻标注资源和人工归纳的语言知识,通过实例方法、最大熵方法和朴素贝叶斯方法的隐喻建模,在综合上下文词语、词性等多项特征的基础上,进行了三种模型不同窗口的比较实验,最后确定最大熵模型为理想模型,然后再引入多项辅助特征来提高识别效果。“n+n”模式识别建立在单个词语实验的基础之上,实验过程重在建立隐喻相似度推理,同时也验证了名词隐喻知识库的有效性。
(4)结合CCD和隐喻知识库建立汉语名词隐喻扩展推理,进一步提高识别效果。为了能够更好地建立隐喻的相似度推理,本文运用人机互助方法对CCD词典进行了合理剪裁,建立了一个词语对应一个语义类的词典格式,为后续的相似度实验提供了保证。本项研究所积累的资源也是重要的成果,可以对今后的汉语隐喻计算研究提供支持。例如,实验所用的各种统计软件都可以作为隐喻自动识别的工具;汉语名词隐喻词表作为基础资源,为隐喻的计算理解提供了有价值的数据;汉语隐喻知识库中源域和目标域的概念映射为人们提供了一组组清晰的汉语隐喻映射图画;新闻领域和文学领域的有一定规模的名词隐喻标注语料库,为计算机的隐喻识别和理解提供了重要参考。