统计和规则结合的粗粒度词义消歧软件的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zswf031124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对词义消歧问题进行了研究,以《现代汉语语法信息词典》中的“同形多义词”为研究对象,以《人民日报》基本标注语料库为研究素材,设计并实现一个统计与规则方法相结合的词义消歧软件。首先提出并回答了关于词义消歧的三个问题,即词义消歧是什么、有什么用、怎么做,并概要介绍了各种不同的词义消歧方法。接着,从整体上介绍了《人民日报》基本标注语料库的“粗粒度词义消歧”研究工作,包括研究目标、用到的各种知识资源(包括词典、语料以及上下文中包含的各种对词义消歧有帮助的信息)以及大致的试验过程。为了解决《人民日报》基本标注语料中的“同形多义词”义项的自动标注问题,设计并实现了一个词义消歧软件,其中包含基于规则的方法、基于实例的方法、朴素贝叶斯(NaiveBayes)以及最大熵方法的实现,并运用基于转换的错误驱动的混合模型将这几种消歧方法结合起来。试验结果显示,各单一模型的消歧效果与baseline相比有了显著的提高,混合模型的效果与单一模型相比又有进一步的提高。
其他文献
 本文的研究目标是测量IPv6网络的性能和拓扑信息,从而可以达到进一步优化IPv6网络的目的。研究工作分为三个阶段进行:首先通过研究网络测量和IPv6网络协议的特点以及国内外的
本文改进了一种基于语义的、层次的、以集簇标签为向导对搜索引擎返回的结果进行层次聚类的算法。算法的主要思想是首先推导出可以表示集簇的集簇标签,然后在这些集簇标签的基
本文讨论了拓展XMI应用前景的可能性,并试图通过将XMI工具构架于多元模型层上,在元建模技术的支持下能够使得XMI工具能够理解来自更多元模型的模型XMI文件。实现了一个构建在EM
本文结合数据库复制、异构数据库集成、中间件等技术的思想,提出采用XML来作为客户端增量数据上传媒介,在此基础上,建立了一个XML中间件的模型,并用JAVA实现.本文总结出客户
分布式(网格)体系结构是当前研究和应用的热点,被视为下一代IT技术发展的基础,是互联网发展的必然趋势。这种体系结构提出的最终目标就是要把整个因特网整合成一台巨大的超级
在现代工业企业的生产和管理中,大量的物理量、工艺数据、特性参数需要进行实时检测、监督管理和自动控制。这是现代工业必不可少的基本手段。随着计算机技术和管理技术的飞
随着计算机软硬件技术的发展,在机械设计制造领域内,三维零件模型呈爆炸式的增长。探索有效的三维零件模型检索技术,快速的从海量模型库中检索出需要的模型,成为当前学术及工
随着网格研究的深入和网格基础设施的发展,在网格上开发了越来越多的功能强大、需要大量资源的科学计算和协同应用,很多网格应用也越来越复杂,具有时间、空间和资源等多种约
随着软件复杂度的日益增大,仅仅依靠技术和工具已经不能满足对软件开发质量的要求,越来越多的软件组织希望通过软件过程来提高组织能力成熟度。而复用软件过程是提高组织过程
约束求解(CSP)是计算机理论界历史悠久的问题,有着广泛的应用。本论文集中讨论了两种CSP问题:SAT和图染色问题,介绍了比较新的SAT算法Survey Propagation(SP)和自己在SP算法