论文部分内容阅读
隐喻的机器处理已成为自然语言处理研究中的热门课题,隐喻处理的好坏将直接影响到机器对自然语言理解的程度,并对机器翻译、搜索引擎和情感计算等领域有着重要的推动作用。隐喻识别是隐喻处理的基础性工作,在目前的汉语隐喻识别研究中,很多隐喻研究者都集中在短语级别的名词性隐喻的识别方法上进行研究,而实际文本中动词性隐喻出现的频率更高,更应该受到更多汉语隐喻研究者们的重视。本文的研究目的就是对句子级别的动词性隐喻进行识别方法的研究,通过将主题模型引入到汉语隐喻识别过程中,提出了两种基于主题模型的识别方法,并将其使用在动词隐喻句子的识别中,从而更好地实现隐喻的识别。 首先,通过对汉语动词隐喻的使用和主题模型的分析研究,将主题模型引入到了汉语隐喻识别的过程中,提出了基于主题模型的汉语动词隐喻识别方法。本方法针对汉语动词隐喻,首次将LDA(Latent Dirichlet Allocation)应用于汉语隐喻的识别,该方法通过对句子主题建模,得到句子的主题分布,并结合人工主题标注作为特征,最终通过机器学习的方法对动词隐喻进行了识别,取得了较好的识别效果,实验结果表明了主题模型应用在隐喻识别方法上的有效性。 在主题模型方法对隐喻识别的有效性基础上,为了解决人工标注主题的缺陷,论文对上述方法进行了更深层次的探究,通过引入语义知识,提出了一种主题模型融合语义知识的无标注识别方法,其中语义知识来自于中文知识库《同义词词林》和英文知识库WordNet,通过选取句子的主题分布、词语的抽象度和语义类别信息作为特征,对句子级别的动词隐喻进行识别。此方法减少了人工干预对实验结果的影响,使整个实验自动化完成,并得到了较好的识别效果。 通过本文在基于主题模型的汉语动词隐喻识别方法上的探索和研究,提出了两种隐喻识别的方法,并且在汉语动词性隐喻的识别效果上取得了比较不错的结果,也为主题模型在隐喻处理研究中的应用提供了一定的参考价值。