论文部分内容阅读
隐喻指用一类事物描述另一类事物。隐喻在语言文字中是普遍存在的。历史上,学者对隐喻的看法大多停留在修辞手法的层面上。随着语言学研究的深入,人们开始对隐喻有了全新的认识,并提出了一系列重要的理论。其中影响力比较大的理论有概念隐喻映射理论和语义选择限制理论。现代流行的隐喻理论认为隐喻反映了人类的一种思维方式。 由于自然语言中含有大量未处理的隐喻,所以自然语言处理技术的发展受到了制约。基于目前隐喻识别研究的重要性和困难性,我们认为提出一套成熟可行的隐喻识别方法是非常有必要的。目前主流的隐喻识别方法都是基于语义选择限制理论或概念隐喻理论。但是这些方法都不太成熟,在训练语料库,领域依赖性,扩展性方面都有限制,而且效果还不足以提供实际应用。因此隐喻识别还有很大的提升空间。 我们在本文中提出了一个基于谓词搭配的语义消歧算法和一个基于谓词相容性的隐喻识别算法。我们利用三种语义搭配:词语搭配,概念搭配,谓词搭配。这三种语义搭配的语义粒度依次降低,数量规模也依次降低。大量的词语搭配在最底层的谓词搭配上会有语义信息的重叠和累加。这部分叠加的信息正是我们语义消歧算法和隐喻识别算法的关键所在。词语搭配可以从大规模语料库中抽取。概念搭配和谓词搭配利用HowNet生成。在本文中语义消歧的对象是词语搭配,消歧的目标从词语搭配所可能产生的全部概念搭配中选择正确的概念搭配作为消歧结果。大量消歧后的词语搭配实际上构成了一个概念搭配的集合,从这个集合中我们可以得到一个谓词搭配相容性的矩阵。利用这个谓词相容性矩阵,我们能够顺利地将词语搭配区分成隐喻和字面义。在谓词相容性矩阵的帮助下,隐喻识别的过程从识别高层的词语搭配是否是隐喻转换到判断底层的谓词搭配的相容性上。我们对消歧算法和隐喻识别算法分别进行实验评测。实验结果表明两个算法的效果都是比较好的,并且也都达到了我们的预期。