基于统计的复述获取与生成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaoxiao1946
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述,即对相同语义的不同表达方式,是自然语言中非常普遍的现象,它反映了人类在使用语言时的灵活多样性,同时也为自然语言处理的研究提出了挑战。近年来,有许多学者针对复述问题展开研究,并尝试将其应用到机器翻译、自动问答、信息检索、信息抽取、文本生成等相关研究中去。复述研究主要包含两大类内容:其一是复述资源的获取,即从各式语料中基于各种方法抽取复述句对、复述短语、复述模板等不同粒度和形式的复述资源;其二是复述生成,通常指的是句子级的复述生成,即由计算机自动生成给定句子的复述句。本文的研究工作涵盖了上面两类问题。首先,本文尝试使用了多种语料库,并针对每种语料库提出了有效的方法以抽取复述短语、复述模板以及复述搭配等细粒度的复述资源。在此基础上,本文将抽取到的复述资源用于统计复述生成。本研究的主要内容包括以下几个方面:1.基于多种方法抽取复述短语资源。复述短语抽取一直是复述研究中的热点问题,有很多方法被相继提出。本文充分借鉴了前人的研究成果并加以改进,分别使用包括单语平行语料库、单语可比较语料库、双语平行语料库、类义词典同义词、词典注释以及搜索引擎用户查询等各类资源抽取复述短语。该工作的意义不仅在于获取了大规模的复述短语,更在于对各种语料资源以及各种复述抽取方法的综合、比较和分析。我们由此清楚地掌握了每种方法和语料资源的优缺点以及抽取得到复述短语的类型和特点等。2.基于“枢轴法”抽取复述模板资源。与复述短语相比,复述模板中含有表示变量的“槽”,可以通过在槽中填入不同的内容而得到不同的复述实例。因而,复述模板在复述的识别和生成中覆盖度更高、效力更强。本文提出了基于枢轴法从大规模双语平行语料库中抽取复述模板。该方法在句法分析和双语词对齐的基础之上分别抽取英文模板和中文模板,并进而利用中文模板作为枢轴来抽取英文复述模板。该方法使用对数线性模型计算两个英文模板的复述概率,其中使用了基于极大似然估计和“词加权”的特征函数。实验结果表明,利用该方法抽取出的复述模板数量大、准确率高,对后续的复述生成作用显著。3.基于二元分类的方法抽取复述搭配资源。复述搭配是指语义相同但字面表达不同的搭配。复述搭配在自然语言处理的众多领域中皆有应用,但前人的研究却鲜有涉猎。本文以动宾搭配为例研究复述搭配的抽取。具体地,本方法将复述搭配抽取视作二元分类问题,并综合使用了基于翻译、词典、极性词以及网络挖掘的多种特征。实验结果表明,本文所采用的二元分类的方法对于抽取复述搭配是行之有效的,其中使用的各种特征对于提高复述搭配抽取的效果皆有帮助。4.提出面向多任务的一体化统计复述生成方法。复述生成在自然语言处理的诸多方向均有重要应用,但在这方面的研究却很不够。本文通过对复述生成问题本质的分析以及与其它相关研究问题(尤其是机器翻译)的比较,提出了一种统计复述生成方法。据我们了解,该方法是第一个专门针对复述生成问题设计的统计方法。该方法的主要特色体现在以下两方面:首先,该方法基于一个统一的统计模型面向不同的应用任务生成复述句,以满足各种任务的不同应用需求;另外,该方法可以非常方便地融合使用以上抽取得到的各种复述资源,从而提高复述生成的性能和效果。总之,本文一方面致力于各种复述资源的抽取,一方面尝试将抽取得到的复述资源统一地应用到统计复述生成的问题上来。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者产生一定的借鉴价值。随着自然语言处理的各项底层技术的不断完善以及计算机对大规模语料处理能力的不断增强,相信复述研究在未来会取得更大的突破。同时,复述技术的成熟也将促进其他相关研究的发展!
其他文献
目的:探讨和评估天麻钩藤饮治疗高血压的应用与效果。方法:88例高血压患者,通过电脑随机分为对照组与研究组,各44例。对照组采用卡托普利口服治疗,研究组采用天麻钩藤饮治疗
提出了云计算环境下电子政务统一信息平台的建设思路,论述了利用云计算的优势解决电子政务信息共享的问题。给出云计算环境下电子政务统一信息平台的总体架构,通过虚拟化技术、
新农村建设是我党提出农村建设的重大历史课题,是我国生产力再上新台阶,解决三农问题的重大举措,具有重要的理论和现实意义。建设有中国特色的社会主义新农村应注重农业机械化工
文章概述了噪声抵消技术的研究现状,以语音信号为例着重阐述了不同种类的噪声抵消方法,并对其性能进行比较,经比较得出自适应噪声抵消方法具有自适应能力强、输出噪声低和信
当井下煤尘达到一定浓度时便有爆炸的危险,同时呼吸性煤尘可以导致煤矿工人的尘肺病,并且煤尘可以缩短井下机械设备的使用寿命,对井下煤尘浓度分类在线精确检测具有重要的意
本文简要介绍位于江西省吉安市被誉为“庐陵文化第一村”的渼陂古村的建筑及环境特色,并且以其特色作为出发点探索渼陂古村在旅游模式引入后的保护与更新,探索其价值体现的更好
随着社会的发展,建筑行业发展迅猛.混凝土具有很多的优势,因此也被广泛应用于建筑工程中.但就目前的情况来看,在建筑工程建设中,混凝土时常会有裂缝的现象发生,从而在很大程
子痫前期为胎盘源性妊娠期特有疾病,发生在妊娠中晚期、分娩期及产后早期,表现为高血压、蛋白尿及其他全身系统性紊乱,可伴有胎儿综合征(胎儿生长受限、宫内窘迫、围产儿病率和病
目的了解农村正常高值血压及高血压居民的心脑血管危险因素分布特征。方法采用随机整群抽样方法抽取河南省新乡地区18-65岁常住农村居民665人进行现况调查。正常高值血压及高
作为一类新兴的计算理论与方法,进化算法(EvolutionaryAlgorithm(EA))已在许多工程与科研应用领域展现出优越的性能。相比于传统优化算法,EA只需要极少的参数设定以及少量的