论文部分内容阅读
汉语的词汇组合搭配的灵活性和变通性,导致中文词汇歧义现象的产生。语言的不确定性直接影响着自然语言处理领域的相关应用的实现,这说明词义消歧研究是解决自然语言处理的关键。让计算机依据从语料中提取出的语言学知识,自动地为歧义词匹配符合语境的词义是词义消歧的目的。本文针对本课题的研究的起源、意义和已有研究现状以及词义消歧未来将面临的挑战进行了介绍,并对比分析了主流词义消歧方法的优缺点。参考已有的相关知识和研究成果,提出一种结合统计学习理论的有监督的混合特征消歧方法。该方法结合语言学中常用的词法信息和语义类信息作为消歧特征。最后利用提取到的特征来训练分类模型,并测试该模型的消歧准确率。本文的研究内容主要体现为以下三个方面:其一,本文阐述了词义消歧领域中较为主流的消歧方法,并针对这些方法做出示例和比较。简述了词义消歧的评测体系和准确率的计算方式,以及词义消歧研究亟待解决的问题。其二,分析了词义消歧的语言学工程资源,包括语料的来源、语料格式、解析工具、语料标注体系、特征筛选和特征的提取。深入研究语料可提供的语言学知识有助于筛选出有益于消歧的特征。利用《同义词词林》获得词汇的语义类信息即语义代码,结合语义类和词法信息的特征提取方法,可以获取包括语义代码、词形和词性等语言学知识。其中,语义代码的多层知识结构可以提供不同层次的指导。其三,通过提取单一特征或不同特征信息的组合,构建有差异的特征向量集。分别利用这些差异化的特征向量集训练支持向量机分类器,然后对比多组不同特征向量集的实验结果,证明新方法及消歧分类器的性能。