短语级复述的识别与抽取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:flcyatwawa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是指对相同语义的不同表达,复述研究在众多自然语言处理的应用领域中都有重要的意义。本文的主要研究任务是短语级复述资源的获取。这项研究工作的目的和意义是为基于统计机器翻译的复述生成模型提供更多资源,从而提高复述生成的质量。本文抽取短语级复述的方法共包括两个步骤:复述短语候选的获取和复述候选的确认。复述短语候选的获取使用了基于可比新闻的方法,此类方法的主要优点在于互联网上可比新闻的数量众多,因此使用该方法可以构建相当规模的复述短语库。基于可比新闻提取候选的步骤包括获取新闻语料,基于新闻内容的相似度和新闻发布时间的间隔获取可比新闻,从可比新闻中提取可比句,以及从可比句中提取复述短语。复述候选的确认使用基于二元分类的方法,其重点是分类特征的设计。本文所使用的特征主要是基于复述语料的统计特征,其中包括基于χ~2方法的词对齐特征,基于互信息方法词对齐特征以及基于χ~2方法的词性标注模板对齐特征。前两个特征是词汇层面上的统计特征,后一个为以词性信息为模板的统计特征。除此之外,我们还使用了一些简单的短语串相似特征,如词长度比,词重叠率,编辑距离特征。实验结果表明了使用基于可比新闻的方法可以获取大规模的复述短语,并根据特征比较证明了每一类特征对分类准确率提高均有贡献,其中以基于χ~2方法的词对齐特征的贡献最大。基于可比新闻的方法共获取复述短语2,961,739对,其准确率为21.47%。我们使用4类特征对2,961,739对复述短语候选进行分类确认,最终共抽取出595,619对复述短语,其准确率为59.3%,提高了37.83%。
其他文献
虚拟人在娱乐、虚拟现实等应用领域有着非常广泛的应用。而虚拟人的逼真变形也是一个非常重要的方面,既是一个热点,也是一个难点。在三维游戏等实时应用领域中,对人体变形的逼真
随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展,集中式数据库开始向分布化方向发展。而传统意义上的分布式数据库由于全局数据模式很难设计、管理、扩充和修改等原
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。复述技术已经被成功的应用到信息检索、自动问答、信息抽取
重庆市政府采购电子交易平台,即重庆市政府采购协议供货平台自2012年开通以来,平台上的商品数量增长迅猛。大量的商品给采购单位带来诸多选择的同时也带来了困扰。如何采购一
目前软件开发过程中第三方组件被广泛使用来提高开发效率,但使用低质量的组件会造成灾难性后果,第三方组件测试的重要性更加凸显。大量第三方组件由于保密性的需要,源码不可
在企业信息化形势下,如何更好地对运输车辆信息进行管理,在很多的企业中已经成为企业面临的一个重要问题。为了更加高效地管理车辆,本文在充分调研车辆管理现状的基础上,提出
随着网络通信技术与多媒体技术的发展,嵌入式视频监控技术逐渐步入到一个全新的数字化网络阶段,广泛运用于电信、银行、交通、电力、智能楼宇等诸多领域。嵌入式视频监控技术
数据挖掘能够发现隐藏在数据中的有用信息,在数据分析领域扮演着重要角色,特别是在零售业,每天需要分析从各个分店产生的大量销售数据,用来帮助商家做出有利的销售决策,比如
当今,互联网已成为信息传播与共享的重要资源。由于Web数据的半结构化、异构、海量等特点,使得传统的数据挖掘技术不能直接运用到Web页面数据源上。因此先要对半结构化的Web
随着Web服务的流行,Web服务技术已从基础构建阶段走向大规模的商业应用阶段,这使得网络上出现了大量功能相同或相似的Web服务。这些功能相同或相似的Web服务,往往具有不同的诸如