融合图结构化语义表达和冗余控制的多文档摘要方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:mugua220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本数据以指数级爆炸增长的时代,理解大型文档并从中获取有价值的信息具有重要意义。中文多文档摘要任务旨在从一个话题相关的中文文档聚类中生成连贯非冗余,在中文语法上具有可读性的摘要。而目前国内对于中文多文档摘要的研究相对较少,且没有公开的中文多文档摘要数据集可使用。目前中文多文档摘要任务的解决方案多为将多个文档处理为一个单文档进行摘要任务,或者以抽取式的方法进行摘要句排序选择。而这些方法都普遍存在无法有效检测显著文本信息、无法进行文档间文本语义关系推理的问题,以及生成式方法生成的摘要通常存在高冗余问题。因此,本文旨在通过构建一份中文多文档摘要数据集,在此数据集的基础上研究生成式中文多文档摘要方法如何有效提升显著文本信息检测能力、如何推理文档文本之间的语义关系以及在生成摘要时如何避免摘要冗余的问题。具体的研究思路分为两种:一是在基于编码器-解码器结构模型的基础上结合图注意力网络编码方法,通过这种显示的图结构数据编码操作帮助摘要模型去抓取源文档中的显著信息以及进行文本间的语义关系推理;二是在第一个研究思路的基础上,为了解决摘要生成时出现的冗余性问题以及辅助增强模型在源文档中识别显著文本信息的能力,引入了最大边界相关算法进行解码端的研究。最终经过实验分析,这两种方法在我们构建的中文多文档摘要测试集上相比以往一些表现优秀的摘要模型来说有明显的性能提升。此外,通过对生成摘要的对比分析,结合图神经网络的方法有效的提升了模型检测显著信息以及语义关系推理的能力,并且得益于最大边界相关算法的引入,有效的避免了中文摘要生成时的冗余性问题。
其他文献
背景 骨关节炎是中老年人常见的慢性病,严重影响中老年人的生活质量。在社区开展骨关节炎的疾病管理有利于资源配置的优化和提高疾病的整体防治水平,但目前骨关节炎的管理存在诸多问题,效果不佳。目的 分析目前国内外社区骨关节炎的管理情况和策略进展,比较其优缺点,为我国社区骨关节炎管理提供更为优化的策略,以改善骨关节炎患者的诊疗效果和预后。方法 于2020年10月至2021年1月,在中国知网、万方数据知识服务
期刊
坚持创新驱动发展战略,增强自主创新能力是提升我国综合国力的关键。作为影响区域创新能力的重要方式,产业集聚对于引领城市创新、实现经济高质量发展具有重要意义,而现阶段我国各个城市的创新能力和产业集聚程度存在较大的差异。本文首先围绕产业集聚与城市创新能力展开,利用我国266个城市2009-2016年的数据计算并分析专业化、多样化集聚和城市创新能力的现状。其次,随着我国城市化的步伐不断迈进,人口、资源在城
学位
在计算机视觉领域,近年来有一类被称为人脸正面化的任务受到了广泛关注。人脸正面化问题定义如下:给出侧脸的图片,通过某种手段获得对应的正脸图片。这项工作在许多领域,例如:提高人脸识别准确率、嫌疑人画像生成等。目前大部分人脸正面化方法都仅能使用包含侧脸-正脸对的有标注图像数据集(通常来自Multi-PIE数据集)进行训练。这样的数据集构成,导致训练出的模型缺乏在不受控环境下的通用性。与此同时,另一类在非
学位
红外和可见光图像融合在民用监控、灾害检测、军事识别等领域具有举足轻重的作用。然而由于红外图像中的热辐射目标尺度变化大,较为模糊,同时可见光图像受天气、低光照等影响,目标成像质量较差,因此红外和可见光图像融合是一项极具挑战的任务。针对红外热辐射目标尺度不一,可见光目标成像质量变化较大的情况,本文提出基于多尺度分解特征选择的无监督红外和可见光图像融合网络,并创新性提出分量重构、分割约束假设,着手解决融
学位
教育期望是指个体对未来在学业上取得何种成就的期待和愿望,相关研究表明,个体早期在学业阶段的教育期望对其当前的学习成绩以及未来的教育获得具有重要的影响。本文使用中国教育追踪调查基线数据,依据期望价值理论,一方面从家庭、学校及个人因素三个方面对全国范围内的七年级和九年级学生的教育期望进行了研究。研究发现,首先,亲子关系会影响七年级和九年级学生的教育期望,具体而言,学生与母亲的关系越好,会对他们的教育期
学位
该文作者以青禾美育研究室为研究对象,探究如何解决该类美育机构发展中存在的问题,希望为美育项目的开展提供理论支撑,增强美育项目的有效性和创新性,助力该类机构的可持续发展。
期刊
全球变暖已成为全世界共同关注的话题,“碳中和”和“碳达峰”这两个词汇也在我国2021年的政府工作报告中多次出现。企业作为经济社会发展的重要组成部分,是温室气体排放的主要来源。我们将企业碳信息披露作为企业减少二氧化碳排放这一行为的观测窗口。如果证实了高质量的碳信息披露可以降低企业的资本成本,可能会为企业积极采取碳减排行动,进行碳信息披露提供内在动力。本文主要研究了企业的碳信息披露与企业资本成本之间的
学位
自1978年实行改革开放以来,我国的经济迅速腾飞,对外贸易量也节节攀升,改革发展成果有目共睹。根据国家统计局于2019年发布的报告显示,自1949年新中国成立至今,我国国民经济持续快速增长,经济总量不断迈上新台阶。其中,在1979年到2018年短短39年间我国经济年均增长9.4%,远远超过同期世界经济的增长速度。然而在为骄人成绩而自豪的同时,须知我国的高速发展是建立在牺牲资源环境为代价的基础之上的
学位
劳动力要素对中国经济增长的影响越发受到人们关注,近年来大多数研究主要基于人口总量、劳动力数量和人口老龄化等因素展开讨论,而人口内在结构中劳动年龄人口比例和劳动力资源使用效率如何持续影响中国经济增长的未来发展是更需要深入研究的问题。近年来不断调整的生育政策,充分反映出中国目前面临着人口红利逐渐消失和人口年龄结构老化等诸多问题,与此同时,劳动参与率逐年下降,经济增长速度持续放缓,社会劳动力供给受到严重
学位
生物医学命名实体识别旨在从海量非结构化文本中自动抽取疾病、基因和化学药物等实体提及,是许多下游自然语言处理任务的基础。目前基于深度学习的BioNER方法通常需要大量的训练数据。而受生物医学领域高度专业性的限制以及研究人员在道德伦理、数据隐私等方面的考虑,BioNER数据集的规模远小于新闻等通用领域NER数据集,这极大限制了模型的识别效果。与以往研究集中于如何让模型更好的利用词级别信息不同,本文提出
学位