论文部分内容阅读
随着互联网的兴起,以论坛、博客等自然语言形式保存的知识以指数级的速度增长,对这些知识的挖掘和利用对自然语言处理技术提出了更高的要求。人类语言中广泛存在的歧义性给自然语言处理技术带来了困难。作为在词语级别消除语言歧义性的方法,词义消歧在机器翻译、信息检索、信息抽取等许多自然语言处理任务中有广泛的应用,并对提高其性能有关键的作用。但知识获取瓶颈问题影响了词义消歧在实践中的推广和应用。知识获取瓶颈问题是指词义消歧方法由于获取消歧知识困难或缺乏消歧知识而对某些歧义词不能消歧或不能正确消歧的问题。该问题严重限制了词义消歧系统的性能提升,是词义消歧系统走向实用化的绊脚石。基于上述应用背景,在国家863高技术发展计划和国家自然科学基金的资助下,以面向创新设计的专利检索系统为背景,本文研究自动获取消歧知识的词义消歧方法。本文试图从不同的角度,以及以不同方法从不同的知识源中获取知识,并将不同的知识糅合在一起,缓解词义消歧中的知识获取瓶颈问题。本文工作主要分为以下方面:(1)为了充分利用知网中所蕴藏的消歧知识,本文提出了一种基于知网中义原关系的多策略相结合的词义消歧方法。该方法在对歧义词根据词性进行类别消歧后,再根据歧义词的上下文中存在的义原关系,分别利用义原间的部件.整体关系、属性.宿主关系和值-属性关系进行消歧。如果不能消除歧义,则继续进行基于中文信息结构和语义相关度的消歧。该方法使用的多种策略特点不一,基于部件.整体关系的消歧和基于属性.宿主关系的消歧作用于名词,基于值-属性关系的消歧对形容词作用,基于中文信息结构和语义相关度的消歧通用性较强。多种策略结合在一起消歧,既能使这些不同特点的策略互为补充,又能最大限度的挖掘知网中的消歧知识以提高消歧的准确率。(2)为了提高使用等价伪词自动获取标注语料的质量,本文提出一种双层过滤的自动获取标注语料的方法。“双层过滤”是对自动获取的语料从等价伪词和句子两个层面上对样本(句子)进行过滤。在等价伪词层面上,该方法根据候选词和目标词的上下文相似度,在目标词的单义同义词中筛选出语义和目标词最接近的词作为等价伪词。在句子层面上,对使用等价伪词获取的例句,根据样本与目标词的上下文共现频度进行过滤,删除了不适合用作消歧的噪声实例。两种粒度不同的过滤措施结合在一起使用,使我们获得了质量更好的标注语料。(3)针对自动标注语料和人工标注语料的缺点,本文给出了一种将自动标注语料和人工标注实例相结合的词义消歧方法。该方法一方面借助人工标注语料为某些无等价伪词的词义提供消歧实例,并利用标注语料计算各词义的分布概率。另一方面使用等价伪词自动获取大量的标注语料,弥补人工标注语料数量上的不足。该方法使两种语料相辅相成,更好的发挥了它们在词义消歧中的作用。此外,本文还提出一种基于语义关联图的词义消歧方法,尝试将知网、未标注语料和标注语料综合在一起表示为语义关联图进行消歧。最后,本文将词义消歧方法应用在文本分类中,提出一种概念与词形相结合的特征表示方法。本文提出的四种消歧方法都在词义消歧评测会议Senseval-3 (2004)的汉语词汇采样任务进行了测试。所有方法都接近或超过当时参加评测的其它有指导方法,表明了本文方法的有效性。本文第一种方法利用知网中义原间的语义关系和语义距离进行消歧,充分挖掘了知网中的消歧知识,第二种方法利用等价伪词自动获取标注语料,解决了基于语料库的方法缺乏标注语料的问题,第三种方法将自动标注语料和人工标注语料结合在一起消歧,分别发挥了自动标注语料的数量优势和人工标注语料的质量优势。本文针对词义消歧的知识获取瓶颈问题,从不同的方面获取消歧知识,提高词义消歧的覆盖率和准确率,期望有助于词义消歧的知识获取瓶颈问题的研究。