词义消歧若干关键技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:whlwzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是计算语言学领域的基础研究课题之一,长期以来在机器翻译中扮演重要角色。在Internet迅速扩张的今天,词义消歧也是提高信息检索性能的重要途径。本文针对有指导词义消歧中的数据稀疏问题和无指导词义消歧中的义项分布估计问题进行研究,主要工作如下:   (1)基于词相似缓解数据稀疏。本文首次将词语相似度(Word Similarity)有效地集成到核方法这一被普遍采用的有指导词义消歧方法中。首先在ACL SIGLEX组织的SemEval2007和SENSEVAL2两次国际评测的英语采样词任务上验证了该方法的有效性。进一步在LDC(LinguisticData Consortium)的Chinese Gigaword语料上,完成汉语词相似度计算,并验证该方法在SemEval2007评测的汉语采样词任务上的有效性。   (2)基于词聚类缓解数据稀疏。将词聚类和基于决策表的搭配消歧相结合。目前几乎所有的高质量词义标注语料库都是人工建造的,该方法旨在减轻词义标注语料库建设中的人工标注工作量。基于决策表的搭配消歧具有高准确率的优点和低召回率的缺点。词聚类的结果用来扩展决策表,实验结果表明这种方法在几乎不损失准确率的前提下,召回率提高了20个百分点。   (3)扩大词义标注语料库规模缓解数据稀疏。改变传统的根据多义词在语料库中的出现顺序,依次提交给标注员标注的做法,本文通过主动学习(Active Learning)让系统挑选出那些信息量大的待标注句子优先提给标注人员。在投入相同人工标注工作量的前提下,根据后者提供的标注语料训练得到的分类器性能更优。本文首先验证主动学习在汉语WSD中的有效性,并根据WSD特点提出一种基于特征增加的度量样本信息量的方法。结合该方法和边界采样方法,改善了主动学习的效果。   (4)自动估计多义词各义项在语料库中的分布。词义的分布通常是不平衡的,通过无指导的方法估计义项分布可以改善有指导的WSD,也可以提示WSD系统根据当前具体的上下文进行消歧,抑或直接标注最常用义项(Most Frequent Sense,MFS)。在Senseva12英语所有词任务和Semcor1.6数据上进行实验。结果表明在自动估计义项分布越不平衡的多义词上,直接标注MFS的准确率越高。   本文的研究对如何将统计模型和语言学知识有机结合做了有益的探索。这对构建高性能的词义消歧系统有直接的指导意义,也为建设大规模词义标注语料库提供了高效率的方法。本文的部分研究成果对计算语言学习领域的其他任务,如语义角色标注、隐喻识别等也将有借鉴意义。
其他文献
随着数据库系统的发展和大规模综合决策分析的需求越来越迫切,数据仓库系统应运而生。数据仓库通常基于多维数据模型,各个维度的数据以及不同层次的汇总数据构成了数据立方体,数
在现代通讯技术日益成熟完善的今天,智能移动计算设备与RFID技术的相结合大大的提高了工作效率,并产生了明显的经济效应。在此背景下研究基于PDA的RFID技术及其应用是非常必要
传统农业生产中,由于农民盲目施肥现象严重,这样不仅造成肥料利用率下降,也增加了农业生产的成本,使得耕地地力下降,而且也带来严重的环境污染,威胁农产品质量安全。研究表明,测土配
随着计算机技术和互联网的发展,电子文档得到越来越广泛的应用,其安全性也得到日益重视,而电子公文、电子图书以及各种商业领域等应用环境的多样化,对文档用户权限管理提出了更新
面向组件编程是一种组织代码的思路,其核心概念是服务和组件。将系统看作一个个的组件,通过服务来定义组件之间的协作关系,完成系统的构建,从而能够隔离变化,并合理的划分系
随着计算机网络的普及应用,基于网络的空间信息资源正日益丰富,其应用领域也在快速地拓展,以满足全社会对空间信息的需求。开放的Internet虽然为Web GIS提供了广阔的社会应用前
网络技术的快速发展和多媒体产业的迅速发展已经越来越在我们的日常生活中产生重要的影响。我们也很容易就接触到很多数字音频资源。随着人们知识产权意识的不断增强,这些巨大
随着计算机技术的日益发展和防护林体系建设的变革,以及森林可持续经营对森林资源信息利用的要求,促使了防护林体系空间配置调整思想在林业研究领域中的日渐深入。使用防护林体
随着集成电路工艺的不断提高,系统芯片的设计和验证工作日益复杂,基于FPGA原型实现的动态验证技术,可以提供接近ASIC实现的仿真速度。基于FPGA硬件原型的软硬件协同设计环境,能够
随着计算机技术的发展与数字图书馆资源建设的深入,数字图书馆中电子论文等数字资源的总量日益增多。目前,常见的基于关键词的电子论文检索服务,主要是通过用户输入需要查询的关