【摘 要】
:
词义消歧在自然语言处理的许多应用领域中具有重要的理论和实践意义,是一个影响着自然语言处理领域中许多其他应用问题的“中间问题”,在机器翻译、信息检索、主题内容分析和
论文部分内容阅读
词义消歧在自然语言处理的许多应用领域中具有重要的理论和实践意义,是一个影响着自然语言处理领域中许多其他应用问题的“中间问题”,在机器翻译、信息检索、主题内容分析和文本处理,以及句法分析等领域起着很重要的作用。当前主要有两种方法进行词义消歧,第一种是基于词典的方法,第二种是基于语料库的方法。第一种方法需要语言学知识,第二种方法使用统计学和机器学习方法,从大量的样本中推导出语言使用模型。大量样本组成的语料库根据情况又分为已人工标注过的和未人工标注过的,根据使用的语料不同,第二种方法又分为有监督和无监督方法。在四次词义消歧的国际比赛中,有监督的词义消歧方法往往能获得最好的词义消歧结果。本文采用有监督方法进行词义消歧,使用多种机器学习方法从上下文中提取不同的信息来构建分类器。对这些分类器进行性能分析,综合这些单分类器的输出结果,通过不同的组合算法构建多分类器系统。实验结果表明多分类器融合能有效地提高分类性能。有监督的词义消歧的优点是分类的准确率比较高,但与此对应的是需要人工标注的语料库,传统的有监督词义消歧往往只能限定在某些词语上,未能推广。本文采用了一种bootstrapping方法,自动的从网上获得包含歧义词的句子。通过对这些句子进行语义标注,构建出有标注的语料库。通过这种自动获得语料的方法,可以将有监督的方法推广开来。
其他文献
网格(Grid)技术是近年来国际上兴起的一种重要信息技术,其目的是实现地理上广泛分布的大量异构资源的共享。资源调度是网格研究的重要内容之一,它决定了如何合理地将任务分配
曲线曲面的拟合问题在理论研究和实际应用中常常遇到。模式识别和计算机视觉中,图形(图像)数据的模型拟合是一项基本的工作。在工程、统计和计算机图形等方面也有着广泛的应用
传统的粗糙集理论是一种处理不完备、不完整数据的智能计算方法。传统的模糊集理论也是一种重要的处理不精确,不确定信息的数学工具。模糊粗糙集是模糊集理论和粗糙集理论的
随着Internet的发展,网络资源作为一种新兴的资源正快速增长。网络资源广义上可包括电子文档、电子视频、网络信息、应用程序、网络服务等,对于部分可复制的网络资源,如电子
随着数据库技术的不断发展和其在军事、政府、金融等部门的广泛应用,数据库的安全问题越来越受到人们的高度重视。传统数据库系统提供的安全特性仅能够满足一般的应用要求而
在优先考虑工程安全,供电可靠性的条件下,梯级水库水电站的优化调度,充分发挥水资源系统的除害兴利作用,使总体经济效益最大。梯级水库调度问题是一个复杂的问题,正确、合理
近几年,关于神经网络的研究取得了令人瞩目的进展,引起了包括计算机科学、脑神经科学、人工智能等学科领域内的科学家的巨大热情和广泛兴趣。神经网络是人类对其大脑信息处理
事件信息抽取(Events Information Extraction: Events IE)目前是信息抽取(Information Extraction: IE)中的一个重要领域。本文提出了一种跨文本事件信息融合方法,该方法在
近年来,网络以及硬件的快速发展使得人们被淹没在信息海洋之中,因此,基于内容的视频检索成为一个研究热点,体育视频检索作为其中一部分也得到了广泛的研究。足球比赛深受广大
在当代非线性科学中,非线性方程的可积性是广大学者的重要研究方向之一.本文将结合著名数学家吴文俊的数学机械化思想,并以计算机代数系统Maple为工作平台研究非线性微分差分方