基于BERT模型的长文本生成式摘要提取研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:thinkthinkthink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国智能制造发展的趋势,人机智能交互成为核心任务之一。在人机智能交互过程中存在文本数据的读取和传递,这些数据通常包含大量长文本信息。为了高效地进行关键信息传递和交互,需要筛选和总结其中的重要内容,使用的方法称为生成式文本摘要提取。然而,现在文本摘要的方法主要用在短文本摘要提取,但是对长文本还鲜有研究。文本的长度影响网络模型生成摘要的质量,长文本包含更多的信息,扩大输入文本长度,能够获得较完整的文本语义关系。因此,提高长文本生成摘要的准确度成为摘要提取任务的一个研究内容。本文分别对数据集和BERT模型进行改进和研究。数据集上,主要基于长文本数据集CNN/Daily-mail进行,整个训练过程并不会只选取其中的短文本而是使用所有文本。拆分长文本,将其处理为分割数据集和组合数据集并适用于新模型。之后利用Doc2Vec训练句子向量,并在每个拆分后的段落文本向量中添加句子向量来保证整体的语义相关性,保留了原始文本中的语义信息,使其在拆分后相关联。为了获得更好的训练结果,还需要结合位置编码和注意力机制,增加位置因素来完善整体的词嵌入向量。模型上,针对新数据改善BERT模型结构。同时堆叠三个BERT编码器,每个编码器输入原长文本的一部分,结合训练所得到的文档向量,获得对应的输出文本向量,并传入到解码器中,之后结合每个解码器生成的摘要内容,获得整体的摘要表示。改进模型利用拆分思想,减少每次传入数据维度,又保留了长文本相关信息,在不增加运算成本的同时,完成对长文本摘要生成的任务。最终,提出一种基于BERT模型的长文本生成式摘要提取模型,分别使用分割数据集和组合数据集两种数据形式评估改进的模型,对比实验结果得到,本文提出的模型架构所生成的摘要在不同的评价指标上准确度均有所提高,验证了提出方法和模型在生成式摘要提取任务中当输入的文本是长文本时的有效性。
其他文献
区块链技术因其所具有的高度可信、不可篡改、可追溯等特性,在学术界以及工业界引起了广泛的关注。区块链技术改变了传统的中心化信任的模式,它通过多方参与,多方共同记账的方式解决了信任问题,从而能够使交易双方放心的利用区块链平台进行交易活动。区块链技术在金融领域的探索与应用比较多,而它所具有的良好的特性使其在供应链、医疗、物联网、能源等领域也有了初步的应用。能源生产、交换、传输、消耗的过程中会产生大量的数
铝型材作为工业型材的重要制品,工件缺陷检测是其生产流程中的重要工序,而表面细微缺陷检测作为工件缺陷检测的重要工作,影响着铝型材的实用性、外观性与舒适性。由于细微缺陷图像表征性差,样本难以采集,导致了样本空间的不均衡与细微缺陷的难以识别问题。然而目前并无行之有效的方法对不均衡样本空间的表面细微缺陷完成识别。为提升不均衡样本空间细微缺陷的识别精度,本文以铝型材表面缺陷作为研究对象,对铝型材表面缺陷样本
过程能力分析是六西格玛管理中一种常用的质量改进方法。根据过程能力指数进行过程能力分析,根据分析结果可以了解生产制造过程满足生产要求的程度,然后根据过程指数的不同可以给出相应的改进措施。因此,过程能力指数是进行过程能力分析的重要指标。随着机器视觉系统的快速发展及在各个领域中的广泛应用,许多产品信息更多的是以图像数据的方式展现。与人工测量相比机器视觉系统具有避免因疲劳导致的误差增大、避免人为的感性影响
发动机制造过程涉及到的制造环节众多,工艺过程十分复杂,大幅提升了制造过程溯源的难度和溯源技术的要求。目前,发动机制造过程质量溯源面临着溯源公信力不足、数据中心化存储隐患、信息记录存储安全难以保障的问题,导致生产制造的汽车发动机出现了各种质量问题,给用户与车企带来了巨大的损失。针对上述问题,本文将具有去中心化、防篡改、易溯源、自信任等特点的区块链技术引入到发动机制造过程质量溯源体系中,提出了一种基于
薄膜晶体管液晶显示器(Thin Film Transistor-Liquid Crystal Display,TFT-LCD)凭借其体积小、功耗低和响应速度快等优点在新型显示器行业占据越来越大的市场份额,制造商之间的竞争也变得尤为激烈。因此,提高产品质量和生产效率成为制造商保持优越性的重要因素。然而,TFT-LCD制作过程中缺陷种类较多,采用人工目视检测方法具有稳定性差、耗时长、检测标准难以统一等
元谋县位于云南省中北部,北接四川省攀枝花。境内植被覆盖度较低,山地与半山地区域占比较大,区域内发生的地质灾害次数较多,使得当地人民的生命财产安全饱受威胁。地质灾害风险性评价不仅考虑地质灾害发生的可能性,还考虑到地质灾害发生后会造成的损失程度,这样做出的评价结果,可以为当地发展规划提供一定的理论依据。本文以元谋县为研究区域,通过野外实际调查及收集资料得到元谋县地质条件及地质灾害发育特征。本文选取了坡
如今,随着部分劳动密集型产业向越南的迁移,中国和越南在政治经济领域的交流合作愈发密切,及时把握越南新闻媒体的舆情及观点表达对中越政治、经济领域的交流有着重要的影响。由于语言障碍,在网络上获取的越南语新闻很难去人工理解和分析其舆情观点。同时可以发现汉越可比语料间内容关联度较高,主题高度相关,主题词有部分区别,可在双语语料间共享使用。基于这种特点,本文研究了汉越可比新闻观点句抽取和情感分类方法,在与越
随着工业机器人和服务机器人领域快速的产业发展,移动机器人定位技术在广泛的行业应用中引起了众多关注,在室内摄影测量相关的同步定位与制图(Simultaneous Localization and Mapping,简称SLAM)在该领域中的研究最为火热。采用室内摄影测量技术的视觉SLAM算法大都基于特征点进行数据关联和后端优化,但在某些光照较低和弱纹理的场景下,由于特征提取数量的不足,导致SLAM系统
随着三维测量设备的更新换代和计算机数据处理技术的快速发展,三维扫描技术能够快速准确的获取物体表面的点云数据信息。基于多线激光的三维扫描技术,因其适用环境广泛、设备安装方便、易于商业化开发等优点,被广泛地应用于点云数据的采集工作中。初始的点云数据需要通过点云数据处理技术进行加工,提取点云数据中各种不同的特征信息,才能满足人工智能、逆向工程、工业自动化等各个领域的应用需求。本文针对基于多线激光稀疏点云
近年来,图像融合在信息融合,计算机视觉和机器学习等新兴科技领域中发挥着至关重要的作用。在一些机器视觉任务中,现有的成像传感器设备仍然存在技术上的局限性,使得摄像机的镜头只能聚焦在自然场景中特定景深或一定距离内且具有高对比度和清晰度的物体上,否则目标就会变得模糊。因此,为了可以精确地评估输入图像的模糊度,识别出尽可能多的目标和细节信息以及高清晰度区域,并将这些有效的数据结合起来生成信息量更加丰富的图