基于条件随机场的汉语词义消歧方法研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 21次 | 上传用户:yuncat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语消歧一直以来都是自然语言处理领域中的一个热点和难点,对于机器翻译、信息检索、句法分析、文本分类等领域的研究都具有十分重要的理论和实践意义。 本文调研了国内外词义消歧研究的历史和现状,分析了目前词义消歧的算法和采用的相关技术。现阶段,无指导词义消歧方法虽然可以节省大量人工标注的工作,但是其标注正确率相对较低,难以满足实际应用的需求。有指导的词义消歧仍然是当前实际应用中的主流方法。 本文提出并构建了一个基于知网的汉语语义实例库(CSIC)来解决有指导词义消歧任务中的知识源问题。目前该实例库正在建设中,已经完成了实例库的总体结构设计、标注规范制定、标注平台开发、标注语料整理和评测模块开发等主要工作,为后面开展大规模词义标注工作提供了较好的基础。 为了快速建立大规模、高质量的汉语语义实例库,本文开发了一个标注平台来提高人工标注的效率,自动维护标注的一致性,检查标注中出现的错误。同时,标注平台还能够方便的进行不同消歧方法的实验,并提供算法评价模块。 条件随机场是近年来提出的一种条件概率模型,主要用于序列标注和分割,是一个基于统计的机器学习方法。目前在自然语言处理领域,条件随机场模型多用于词语切分、词性标记和浅层语义分析等领域。本文尝试在词义消歧过程中引入条件随机场模型来从CSIC中学习消歧知识。实验结果表明,条件随机场模型取得了较高的词义标注正确率。
其他文献
如今,越来越多的学校使用多媒体设备辅助教学。电子白板作为一种多媒体教学设备已经出现在市场上。市场上现有的电子白板虽然可以满足书写方面的要求,但是大多无法兼顾产品的
基于Web的教学是一种以网络为基础的远程教学。这种教学方式能够激发学习者的学习兴趣,从而达到让学习者主动构建知识的目的,实现自己获取知识、自我更新甚至创新知识的目标
线路变形是计算机信息可视化领域中的重要组成部分,也是线路研究中最常用的手段之一。根据用户需求的不同,本文将线路变形分为三类:突出显示内容的变形、突出用户感兴趣区域的
对网络中安全威胁的监测及其处理方法是网络安全研究的问题之一。当网络发生安全威胁事件时,往往会引发多米诺效应:网络链路流速呈异常变化、受影响的互连设备CPU使用率变高等
本论文讨论了大规模数据集备份的情形下,利用嵌入归档文件头部的自描述元数据信息对散落的归档文件集合实施有效管理的方案,并进行了详细设计与实现。 在通常的备份归档系统
Voronoi图是一个关于空间分割的基础数据结构,它以某种距离作为度量,以近邻原则对空间点集进行剖分。这种剖分结果能够很好地表达点与点之间的邻近关系以及点的影响范围等重
目前国内城市污水处理厂故障诊断技术研究主要是采用基于知识的故障诊断专家系统,然而建立基于知识的系统的一个主要问题就是知识库的构建。知识库的构建主要依靠只为少数操
时间是自然界无所不在的客观属性,自然界的任何信息都具有相应的时态属性,业务流程也不例外。传统的业务流程研究通常只考虑了流程的主谓宾,即操作者、操作、操作对象,而忽视了时
近年来随着信息技术的飞速发展,传统的SCADA系统在扩展性及不同系统之间的数据的共享与交互方面都暴露出了明显不足。新的SCADA系统应该将彻底从集中走向分布式,独立走向整合,变
目标跟踪技术在军事和民用领域应用广泛。应用无线传感器网络的移动目标定位和跟踪技术是目前研究的热点,其中,高效地使用网络能量、保证目标跟踪的准确性是研究的关键技术之