中文复述实例与复述模板抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xu337958503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是自然语言中非常普遍的一个现象,它集中反映了语言的多样性,已经被应用到信息检索、自动问答、信息抽取、自动文摘、机器翻译等多个领域。本文从相关语料库出发,运用多种自然语言处理技术和数据挖掘方法,对复述实例和复述模板的抽取进行了深入研究。主要内容包括以下几个方面:  1.复述研究的起点是复述实例语料库的构建。本文基于两种类型的相关语料库,名著的多个译本构成的篇章级单语平行语料库和对同一事件的不同新闻报道组成的可比新闻语料库,分别从中抽取句子级的复述实例。对于译本单语平行语料库,本文针对没有段落对齐标记的问题,提出了一种基于长度和位置信息相结合的句子对齐方法,有效获取了大量句子级复述实例。对于可比新闻语料库,本文实验了三种抽取方法,分别为编辑距离方法、语义编辑距离方法和基于命名实体过滤的启发式方法,根据各种方法的特点,能够从可以新闻语料库中抽取出不同类型的复述实例。  2.与句子级复述实例相比,短语级复述实例具有更细粒度的知识,因此本文针对短语级复述实例的获取进行了专门的研究。本文分别从两种语料库中抽短语复述实例:一种是对齐的句子级复述实例语料库,一种是汉英双语平行语料库。对于句子级对齐复述实例语料库,首先进行了统计和词典相结合的方法进行了复述词对齐,然后利用基于规则的方法,从词对齐后的复述实例语料库中抽取出大规模的短语级复述实例语料库。对于汉英双语平行语料库,针对只输入一个短语从双语语料库中抽取的复述不能够解决歧义的情况,本文同时输入一个双语短语,双语对中的两个短语互相之间能够确定对方的语义,提出了一种基于双语语料库的短语级复述实例获取方法,能够有效的从中获取短语级复述实例。  3.复述模板具有更强的抽象与表达能力,能够被用来生成大量的复述实例。对于复述模板的研究主要存在两个问题,第一是复述模板的表示,第二是复述模板的抽取。而复述模板的表示是复述模板抽取的前提,因此本文在分析了多种复述模板表示方法的基础之上,提出了一种基于语义信息的复述模板表示方法,该方法结合一部中文语义词典《同义词词林(扩展版)》,利用互联网上的丰富信息,自动对复述实例进行泛化以获取复述模板,并从多个角度对泛化后的复述模板进行了评测。实验结果显示,本文的复述模板表示方法,与传统的基于词性的复述模板表示方法,具有更高的合理率和准确率。  4.本文提出了一种面向特定关系的复述模板抽取方法,该方法不需要首先抽取出准确的复述实例,而是面向某一特定关系,只需给定一个简单易得的种子,就可以自动抽取出描述该关系的大量模板,这些模板之间由于都具有描述该特定关系的先验知识,因此具备了一种近似的复述模板关系。本文首先在一个大规模的语料库上进行关系模板的抽取,为了解决数据稀疏问题,又将文本资源从大规模语料库扩展到互联网上,并改进了相应的模板抽取方法。实验结果表明,该方法能够抽取有效的复述模板。  本文界定复述研究的对象是短语或者句子的同义现象,需要用到多种自然语言处理的底层技术,因此,自然语言处理各种底层技术的不断发展和成熟,能够为复述技术进一步深入的研究提供基础。反过来,复述研究的成果,也能够有效的促进各种底层技术的发展,最终使计算机更为精确的理解自然语言。
其他文献
企业应用集成要解决的问题是如何将企业内部各种异构的系统组织起来,使它们能够以一种统一的方式进行相互通信,而不用理会它们背后具体的技术平台差异。企业应用集成的发展经
随着计算机网络的普及,网络游戏产业得到了迅猛的发展,已经逐步成为许多人消遣、娱乐的主要途径。其中,休闲及益智类的网络小游戏更是深得广大学生群体和白领们的青睐。近年来国
在智能科技日新月异的今天,自动识别技术已经受到众多研究人员及生产应用者的普遍重视。尤其是人脸识别,它是利用生物技术进行个人身份鉴定的一种重要手段,具有极高的研究价
随着国内通信市场快速的发展,各运营商所建立的通信基站越来越多,这些基站工作的稳定及可靠性决定了通信网络能否正常运作。因此基站的维护工作在整个通信产业中的重要性也逐渐
快速扩散制造是一种基于有限生产能力和制造资源的社会化联合制造模式,是一种建立在企业信息化和社会网络化基础上快速组织动员的战备方法。扩散制造资源具有异构性、分布性、动态性、多样性和可重用性等特点。如何不受时空限制地对该制造模式下的质量故障进行诊断是一个非常重要的课题。本文介绍了扩散制造的概念和故障诊断的现状,基于范例推理方法,并结合Web Services和XML技术对扩散制造中质量故障诊断进行了深
我国配电网大部分为中性点谐振接地系统,在配电网架空线路的各类故障中,单相接地故障占比最大。在线故障检测和定位是智能电网自愈功能实现的基础,目的在保证电力供应的情况下迅速确定、排除单相接地故障,提高供电可靠性。所以研究配电网故障定位具有重要的实际意义。行波故障定位是目前高压输电线路故障定位的主要方法,而由于配电网拓扑结构复杂、分支较多,故行波故障测距方法不能直接运用于配电网故障定位。本文针对配电网配
最优化问题在人类社会的诸多领域普遍存在,随着科学研究和应用需求的不断发展,在工程实践和科学研究中涌现出很多复杂的最优化问题,同时最优化问题的规模也在不断扩大,传统的最优
随着通信网络、传感器技术、智能计算等技术的发展,智能电网也得到了飞速的发展。在智能电网的大环境下,功能越来越强大的智能终端也得到了广泛的使用,用户的用电行为也变得复杂
随着Internet的普及,校园网的规模越来越大,功能也越来越强。在校园网日趋成熟的今天,我们同时也发现校园网存在着不少问题,诸如缺乏合理的管理模式,缺乏灵活的计费策略,网络
脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)是一种基于生物背景的神经网络。作为第三代人工神经网络,PCNN在图像处理领域有着非常广泛的应用,主要应用于图像去噪