基于事件语义的篇章表示及应用研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:yellowfly1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,自然语言处理研究领域中词汇和语句的分析已得到深入的研究和发展,各种关于词法分析、词义分析和句法分析的技术已逐渐成熟。然而,作为自然语言处理中最重要的研究内容,篇章学习和理解的效果仍不容乐观。其主要的原因在于篇章中词、短语和语句等不同粒度的语义单元在逐级转变的过程中存在着歧义和多义现象。要消除这种歧义现象,仍需要大量的知识推理过程。因此,如何从非结构化文本中挖掘出更丰富的知识并用于篇章学习和推理仍然是自然语言理解的一道门槛。以往的篇章学习任务,如自动摘要、话题分析和信息检索等,大多以词、短语或语句作为基本处理单元,在学术界和工业界均已取得较大的成功。同短语或语句相比,事件作为一种特殊的知识表现形式可以在篇章的学习和理解中起到更重要的作用。从语义层面来看,词或短语是细粒度的,运用到具体的语义分析任务时需要进行消歧;而事件同语句一样,多数情况下都能表达确定的语义。从基本处理单元的粒度来看,语句是粗粒度的,在语义分析过程中会存在一定的稀疏性问题,给信息的统计和推理带来一定的难度。因此,本文以事件作为词和语句的一种折中方案,研究基于事件语义的篇章表示,并应用到标题生成、多文档摘要和主题分析等篇章任务。不同于词和语句这种自然的语言形态,事件需要利用合理的技术特别地从篇章文本中抽取出来。使用尽可能丰富的事件单元来表示篇章,将给知识推理带来很大的便利,从而能提高篇章学习和理解的质量。然而,基于事件的篇章表示和学习仍面临很大的挑战。一方面,需要一个统一的事件结构表示形式,并要能够比较准确地从文本中抽取出这种结构化单元;另一方面,需要克服以词或语句为基本单位来表示篇章的缺陷,能够利用事件来进行知识的推理以理解篇章语义。因此,本文首先从事件的定义为出发点,研究了开放领域下的事件抽取,然后研究了在标题生成、多文档摘要和主题分析等任务中如何利用事件语义来进行篇章的学习和理解。具体工作如下:1、基于双向传播的开放领域事件抽取已有的事件抽取多基于特定领域的新闻文本。在开放领域,多数基于事件的工作仅将事件抽取视为预处理工作,大多简单地利用依存关系规则或实体关系抽取结果。这些方法忽略了语言自身的特点,过度地依赖于依存分析或实体关系抽取工具的性能。错误或稀疏的事件抽取结果一定程度上会限制篇章学习和理解的效果。本文提出利用双向传播技术来组合事件抽取和事件模板生成模块。该方法是一种无监督的方法,无需种子事件或种子模板。双向传播的过程中,事件抽取的结果用于增强模板的生成,标准事件模板则可用于指导错误事件的修正和新事件的召回。不同规模语料上的实验结果证明了方法的有效性。2、事件驱动的标题生成标题生成,作为一种特殊的摘要任务,除了信息度和可读性外还有特殊的长度要求。已有的抽取式方法强调基于显著语句的裁剪,在信息度上会产生缺失;而生成式方法多基于显著短语进行语句合成,但因语法信息的缺失使生成的标题可读性不理想。本文提出一种事件驱动模型以缓解以上两类模型的缺陷。该模型使用一种有效的多语句压缩算法来融合一组显著性事件以生成最终的标题。模型首先构造由词汇链和事件组成的二部图,同时融入了短语和语句的重要度以习得显著性事件。然后基于显著性事件来构造一个有向无环的词图,采用集束搜索算法在图中搜索最终的标题。实验结果表明事件显著性学习有助于重要语句的选择,词图搜索中事件信息的约束也有助于路径重要结点的选择。同主流系统相比,事件驱动模型取得最优的效果。3、事件指导的多文档摘要生成本文探索在事件的指导下采用子模函数最大化方法来实现多文档生式式摘要。不同于抽取式摘要,生成式摘要方法往往需要深入的文本分析且应具有生成新语句来表达文本重要信息的能力。已有方法大多利用比语句更细粒度的语义单元来生成语句,如名词或动词短语。但此类方法因短语中缺少足够的语法信息使得语句合成的质量并不理想。本文提出以结构化的事件信息来指导多文档中子主题的产成和摘要候选语句的生成。一方面,利用事件语义相似度来产生聚簇,可以避免传统语句聚类方法中带有的噪声;另一方面,将事件的结构化信息融入多语句压缩中能产生高质量的压缩候选。最后组合三个子模函数以优化摘要语句的选择。实验结果表明事件信息有助于语句聚类和压缩生成,生成的摘要质量超越主流生成式模型。4、融入事件语义的主题分析本文研究使用结构化的事件来进行主题分析。针对已有模型中以词或短语来表示的主题缺乏深层次的语义信息且可解释性差的问题,提出了在二项主题模型的基础上构建基于事件的主题模型,采用两种不同的方式将事件的语义知识融入到主题生成过程中。第一种模型利用泛化玻利亚罐子模型加大语义相近的事件分配到同一主题的概率;第二种模型通过为每个事件对引入指示变量,合理地利用语义知识有效地解决事件对中两个事件的主题分配问题。本文不仅从主题凝聚度和主题区分度两个方面对主题模型进行评估,此外还通过将主题生成结果引入到文本分类任务中对模型进行了外部评估。实验结果表明两个模型从共现和语义两个层面有效的解决了事件稀疏性问题。与以往的主题分析方法相比,事件结构包含的语义信息提升了主题生成质量,使主题表示具有更强的可读性和主题判别能力。
其他文献
随着高校社团数量的不断增加,社团参与人数也变得更加庞大,这也对学生社团的管理系统提出了更高的要求,因此如何实现快速高质量的社团管理,正确的引导学生发展就成为了当前学
<正>郑毓信先生的"数学教育改革十五诫"[1]诫条之三:数学教学不应只讲"合作学习",但却完全不提个人的独立思考,也不关心所说的"合作学习"究竟产生了怎样的效果.张奠宙先生认
第一部分放射性认知功能障碍大鼠模型的建立实验目的:对于大脑原发性以及转移性肿瘤来说,放射治疗已经成为不可或缺的手段。但是放射治疗对正常脑组织的毒副反应也严重影响了
系统办学是广播电视大学区别于其他教育机构重要的办学特征。党的十七大以来,江苏基层电大建设面临着"全面达小康、建设新江苏"目标的全面推进,加强城乡发展一体化建设,大力
随着我国对高等教育的体制改革的逐渐深入,学生社团信息系统的应用已经逐渐成为高校中不可缺少的必需品。学生社团,顾名思义是由学生根据爱好兴趣自发组织到一起并且不以盈利
研究背景做为一种呼吸系统常见的慢性疾病,支气管哮喘(Bronchial asthma,BA)已成为全球性的严重的公共卫生问题,影响不同年龄组的人群。现代哮喘理论认为,气道高反应性、肺嗜
截流井是合流制排水系统中起雨污分流作用的特殊构筑物,作为截污系统中最基础与最重要的设施,在设计、施工与运行中往往被忽视,本文重点分析截流井的作用、型式、各型式的应
患者女,65岁。头昏1月余,一般情况良好,神经系统检查未见异常,无颅脑外伤及其他异常病史。实验室检查无异常发现。影像学表现:X线平片示左侧顶骨椭圆形低密度骨质破坏,呈浅分
列举主要诊断与手术操作不相符合病例编码工作中的实际案例,查阅原始病案,以讨论的形式分析其中存在的编码问题,包括主要诊断选择错误、主要诊断编码错误及手术/操作编码错误
非政府组织政策参与是实现社会治理的有效方式,对于社会利益的整合、表达,实现中国民主政治具有重要意义,是民主社会发展的应有之义。当前我国非政府组织在政策参与中还存在