基于Markov网络模型的复述自动抽取方法的研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:huayi8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是含义相同而表达方式不同的词、短语和句子。例如,英文单词“film”和“movie”为单词级别复述又称同义词或近义词;英文短语“take care of”和“look after”为复述短语;英文句子“China grows fast in economy.”和“China’s economic growth is fast.”为复述句对。复述现象在自然语言中大量存在,这一方面增强了语言表达的灵活多样性,另一方面也给自然语言处理带来了新的挑战。其中,在机器译文自动评价时,为了匹配同义词和近义词,复述的自动抽取方法尤其引起学者们的重视。在机器译文自动评价中,传统的方法是利用枢轴法从双语平行语料中抽取复述,然而双语平行语料不仅构建成本高,而且对少数语言对难以大量获取。针对这个问题,我们提出了通过构建词项Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。由于单语文本不仅在网络中大量存在,而且容易获取,这大大增加了复述抽取的数量,提高了抽取方法的泛化性。为了验证我们提出的方法,本文利用词项Markov网络分别提取英语、法语、德语、俄语、捷克语、印度语等六种语言的复述表。并将复述表应用在机器译文自动评价方法METEOR和TER上进行复述匹配,以对这六种语言的机器译文进行自动评价。在WMT’14 Metrics task上的实验结果表明,我们从单语文本中提取复述方法的性能与从双语平行语料中提取复述方法的性能具有很强的可比性。这些实验结果和抽取复述的详细分析揭示基于Markov网络模型抽取的复述具有较高的质量。
其他文献
P2P网络已成为近年来业界研究和关注的一个焦点,但是P2P网络具有开放性和匿名性,为提供虚假文件、恶意攻击等一些恶意行为提供了可乘之机,P2P网络中的信任和安全问题就出现了
随着现代社会经济和科学技术的快速发展,人们活动领域不断扩大,身份识别技术在当今社会生活和经济活动方面显得越来越重要。传统的密码、智能卡或动态口令等具有先天性安全缺
随着信息化的不断深入,企业对依托信息网络,实现业务网络审批的需求日益增强。电力企业大多繁琐复杂的日常业务均属流程类活动,办理时常须在不同的职能管理部门间进行审批活
随着以Internet软件为核心的信息系统的深入,基于Internet的分布式计算机系统及开放式网络环境增加了系统的复杂度、故障率和不安全因素,使得软件系统变得日趋庞大和难以驾驭
随着我国的经济发展,城市规划建设工作也就显得尤为重要,给水管网也随之成为城市居民的生活命脉,为了实现有效的对供水管网的管理,本文探索了基于.NET与ArcGIS Server结合技
近年来,无线传感器网络引起了世界各国军事部门、工业界和学术界的极大关注。数据聚集是传感器网络中一个比较耗时的操作,特别是在高密度网络中。例如,在一个森林火灾监控系
计算机技术与互联网技术迅速结合形成了独特网络文化,流传于网络的大量数字信息给人们的日常生活和工作带来巨大影响。一方面,诸如图书封面、信封封面、文档内容的文字部分等
无线射频识别(radio frequency identification,RFID)技术是从上世纪八十年代兴起的一项非接触式自动识别技术。RFID技术目前已经得到广泛的应用,但其安全机制还不够完善。  
针对无线Ad hoc网络中存在的TCP协议性能下降问题,研究者提出了包括端到端的改进方案,单层改进方案,跨层改进方案等各种方案,但这些方案均具有各自的缺陷,特别是不能有效解决
随着互联网技术的高速发展和计算机的大范围普及使用,人们的日常生活越来越离不开信息技术的支持。智能教学系统在信息检索、数据挖掘、机器学习等前沿计算机技术的支撑下有