论文部分内容阅读
词语消歧一直以来都是自然语言处理领域中的一个热点和难点,对于机器翻译、信息检索、句法分析、文本分类等领域的研究都具有十分重要的理论和实践意义。 本文调研了国内外词义消歧研究的历史和现状,分析了目前词义消歧的算法和采用的相关技术。现阶段,无指导词义消歧方法虽然可以节省大量人工标注的工作,但是其标注正确率相对较低,难以满足实际应用的需求。有指导的词义消歧仍然是当前实际应用中的主流方法。 本文提出并构建了一个基于知网的汉语语义实例库(CSIC)来解决有指导词义消歧任务中的知识源问题。目前该实例库正在建设中,已经完成了实例库的总体结构设计、标注规范制定、标注平台开发、标注语料整理和评测模块开发等主要工作,为后面开展大规模词义标注工作提供了较好的基础。 为了快速建立大规模、高质量的汉语语义实例库,本文开发了一个标注平台来提高人工标注的效率,自动维护标注的一致性,检查标注中出现的错误。同时,标注平台还能够方便的进行不同消歧方法的实验,并提供算法评价模块。 条件随机场是近年来提出的一种条件概率模型,主要用于序列标注和分割,是一个基于统计的机器学习方法。目前在自然语言处理领域,条件随机场模型多用于词语切分、词性标记和浅层语义分析等领域。本文尝试在词义消歧过程中引入条件随机场模型来从CSIC中学习消歧知识。实验结果表明,条件随机场模型取得了较高的词义标注正确率。