基于依存分析的全文词义消歧研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lusx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是自然语言处理中的一个核心问题.现阶段,很多词义消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,在实际应用中有一定的局限性,所以该文希望能够针对真实的应用情况,对大规模文本进行词义消歧的研究.作者在统计框架下,分别采用了有指导和无指导的方法基于依存分析的贝叶斯模型来尝试解决大规模的词义消歧难题,得到了比较好的消歧结果.该文以知网系统作为语义分类的体系,首先尝试了基于单纯贝叶斯概率模型的有指导词义消歧方法,这种方法在抽取上下文特征时没有进行合理的选择,致使一些无用的信息混入其中,降低了贝叶斯分类器的分类准确率,训练3500句开放测试的消歧正确率为89.55﹪;针对单纯贝叶斯概率模型存在的缺点,该文接着实现了基于依存分析改进贝叶斯模型的有指导词义消歧,利用了依存分析的结果作为上下文分类特征的抽取方法,提高了上下文特征抽取的有效性,因此取得了比较好的消歧效果,3500句训练开放测试正确率达到了91.89﹪.无指导的消歧实验中,该文采用了单纯贝叶斯,N近邻改进贝叶斯和依存分析改进贝叶斯等三个消歧模型,3000句封闭测试消歧正确率分别达到了75.40﹪,82.59﹪(N=1)和84.60﹪.由此可以看出,基于依存分析的贝叶斯词义消歧是一种很好的词义消歧模型.另外,该文采用了以知网为基础的语义分类体系,由于知网系统刻画了词语所描述的概念与概念之间的关系,如果能利用知网对词语的语义进行大规模的标注一定会促进对语言的深层理解,这将对自然语言处理的诸多方面,例如机器翻译、自然语言理解、信息检索、自动文摘等,产生巨大的推动作用.
其他文献
税收网上申报是指纳税人将有关纳税申报的电子数据,通过计算机网络传递给税务机关,完成纳税申报手续的工作。它利用计算机、互联网等先进手段,使纳税申报更加方便、快捷、高效。
近些年来,生物特征识别技术因其良好的安全性越来越多的应用于身份识别。生物识别技术是利用人类自身生理或行为特征进行身份验证的一种解决方案,具有不可复制的特性。人体的生
需求工程是软件工程中最复杂的过程之一,其复杂性来自于客观和主观两个方面.从客观意义上说,需求工程面对的问题几乎是没有范围的.由于应用领域的广泛性,它的实施无疑与各个
三维地形生成技术是虚拟现实领域中的重点研究方向,其主要应用于虚拟战场环境仿真、城市景观规划、虚拟旅游、飞行模拟器训练及3D游戏等众多领域。随着航空航天、卫星遥感技
基于内容的图像检索是信息检索的重要分支,其检索所需的信息是从图像本身提取.它的目标是从海量的数字图像数据中检索出用户需要的图像.如今,它在网络安全、预防犯罪、知识产
遗传异质性(genetic heterogeneity)是生物信息学研究领域中的重要研究方向之一,也是遗传学中普遍存在的现象.因此,国内外很多专家对遗传异质性进行了研究,但是传统的遗传异
电子邮件服务是Internet网络应用中除了http服务之外应用得最广泛的服务.随着Internet的广泛应用,电子邮件也成为人们日常交流中不可或缺的手段.近年来垃圾邮件在互联网上泛
  拒绝服务(DoS)攻击日益严重地威胁着Internet安全,而分布式拒绝服务(DDoS)攻击破坏性更大,更难防范。本文介绍了拒绝服务攻击的基本概念和发展情况,通过几种常见攻击工具的
英文识别OCR关键技术包括图像的二值化、文本分割、倾斜校正、单词字符分割、字符特征提取、字符识别以及后处理.相关工作还有字符模板的建立,后处理词典的建立等等.目前英文
随着多媒体技术的广泛应用,需要进行加密、认证和版权保护的声像数据也越来越多。保护数字产品的知识产权和阻止盗版已经成为数字产品和网络应用面临的严峻问题。数字化的声像