论文部分内容阅读
词义消歧是计算语言学领域的基础研究课题之一,长期以来在机器翻译中扮演重要角色。在Internet迅速扩张的今天,词义消歧也是提高信息检索性能的重要途径。本文针对有指导词义消歧中的数据稀疏问题和无指导词义消歧中的义项分布估计问题进行研究,主要工作如下:
(1)基于词相似缓解数据稀疏。本文首次将词语相似度(Word Similarity)有效地集成到核方法这一被普遍采用的有指导词义消歧方法中。首先在ACL SIGLEX组织的SemEval2007和SENSEVAL2两次国际评测的英语采样词任务上验证了该方法的有效性。进一步在LDC(LinguisticData Consortium)的Chinese Gigaword语料上,完成汉语词相似度计算,并验证该方法在SemEval2007评测的汉语采样词任务上的有效性。
(2)基于词聚类缓解数据稀疏。将词聚类和基于决策表的搭配消歧相结合。目前几乎所有的高质量词义标注语料库都是人工建造的,该方法旨在减轻词义标注语料库建设中的人工标注工作量。基于决策表的搭配消歧具有高准确率的优点和低召回率的缺点。词聚类的结果用来扩展决策表,实验结果表明这种方法在几乎不损失准确率的前提下,召回率提高了20个百分点。
(3)扩大词义标注语料库规模缓解数据稀疏。改变传统的根据多义词在语料库中的出现顺序,依次提交给标注员标注的做法,本文通过主动学习(Active Learning)让系统挑选出那些信息量大的待标注句子优先提给标注人员。在投入相同人工标注工作量的前提下,根据后者提供的标注语料训练得到的分类器性能更优。本文首先验证主动学习在汉语WSD中的有效性,并根据WSD特点提出一种基于特征增加的度量样本信息量的方法。结合该方法和边界采样方法,改善了主动学习的效果。
(4)自动估计多义词各义项在语料库中的分布。词义的分布通常是不平衡的,通过无指导的方法估计义项分布可以改善有指导的WSD,也可以提示WSD系统根据当前具体的上下文进行消歧,抑或直接标注最常用义项(Most Frequent Sense,MFS)。在Senseva12英语所有词任务和Semcor1.6数据上进行实验。结果表明在自动估计义项分布越不平衡的多义词上,直接标注MFS的准确率越高。
本文的研究对如何将统计模型和语言学知识有机结合做了有益的探索。这对构建高性能的词义消歧系统有直接的指导意义,也为建设大规模词义标注语料库提供了高效率的方法。本文的部分研究成果对计算语言学习领域的其他任务,如语义角色标注、隐喻识别等也将有借鉴意义。