面向会议纪要的抽取式摘要生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tianyi666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,信息的指数级爆炸导致人们难以高效获得信息资源,自动文本摘要技术也因此得到了广泛的关注。与常见的单文档摘要问题不同,会议文本存在单人发言和多人对话两种不同的形式,且存在信息冗余与内容不连贯等特点。特别是在当前疫情状况下,在线会议的需求暴增,会议的自动摘要变得更加重要。抽取式摘要又比生成式摘要有着稳定性好、可读性强等优点。本文针对面向会议纪要的抽取式摘要生成研究这一课题,提出了两种不同结构的抽取式摘要模型与融合模型,并面向对话类会议提出了一种新颖的用户特征建模方法。主要包含以下三个方面内容:基于多任务学习的序列抽取模型、基于强化学习的端到端句子抽取模型和基于条件变分自编码器的用户特征建模技术。基于多任务学习的序列抽取技术使用了一种序列抽取模型,且考虑到更好的利用输入文本的段落信息,基于序列抽取模型又使用了多任务学习进行共同训练,一定程度上共享相关信息,以提升目标任务。实验结果表明基于多任务学习的序列抽取模型在本课题数据集上达到了令人满意的效果,证明了该方法的有效性。基于强化学习的端到端句子抽取模型使用了一种与基于多任务学习的序列抽取技术不同的模型结构,该模型使用编码器解码器结构来进行摘要抽取任务,并考虑了到训练目标与评测指标不统一的问题,基于端到端的句子抽取模型使用强化学习以F1值作为奖励函数来辅助训练模型。实验结果表明针对基于强化学习的端到端句子抽取模型在本课题数据集上达到了良好的效果,起到了一定的辅助训练作用。最后,针对两种不同结构的抽取式摘要模型,对其进行模型融合,融合模型最终得到了本课题讯飞数据集上最好的效果。基于条件变分自编码器的用户特征建模技术针对会议数据集中的对话类数据提出,考虑到发言用户信息在数据中的重要性,本课题使用基于条件变分自编码器的用户特征建模模块为用户发言句添加用户特征信息,该建模方法可以简单有效的融入摘要模型。由于该模块用于用户特征的建模,而非独立完成摘要任务,因此为了验证该方法的有效性,将本模块分别加入抽取式与生成式的摘要模型进行实验。实验结果表明,用户特征建模技术与基线方法相比有着非常显著的提升。
其他文献
在现代的应用工程中,计算机视觉、人工智能成为重要的研究内容,其中目标跟踪在自动驾驶、监控安全、人机交互、智能交通等问题解决上有着重要的应用价值。视频目标跟踪作为计
伴随高考改革,此时高中的课堂教学也迎来了新一轮的挑战。物理课堂的高效性一直以来都是教学发展追寻的最终目标,高效课堂成为贵州省越来越多学校推崇的教学模式,遵义市第二
实例分割是一项新兴的计算机视觉任务,不仅需要将图像中的每个感兴趣目标进行像素级别的分割,还需要区分每个类别的不同个体,该任务在自动驾驶,智慧医疗,机器人操控等领域具
新课改强调要关注学生差异性变化,强调教育要以人为本,采取合理的评价方式,以求促进每一位学生的发展。体育运动学校(以下简称体校),不仅仅要培养运动员专项技能,也要加强他
在自然环境中,因气候等原因,植物不可避免的受到低温胁迫的影响。ICE是植物体内的一类bHLH转录因子,在植物低温胁迫中发挥重要作用。但我们对ICE在植物界的分子进化情况及其
在转炉炼钢过程中,会产生大量的污染气体,随意排放会严重污染大气环境,排放的烟气中含有大量的可燃气体,若可以对排放的烟气进行除尘回收处理,则可以获得良好的社会效益和经
增殖诱导配体(APRIL)和B淋巴细胞刺激因子(BAFF)是肿瘤坏死因子(TNF)超家族中两个关系密切的两个成员。它们不仅能够促进B、T淋巴细胞的增殖和分化而且在细胞免疫和体液免疫
随着电力工业的迅速发展,电网容量和电压等级也随之不断提高,为了保证供电的可靠性和安全性,对运行中电气设备的温度进行监视并自动进行故障诊断显得尤为重要。目前,国外已将
长期以来,身体受“身心二元论”的影响,藏于帷幕之后处于被遮蔽的地位。而身体哲学的兴起令身体逐渐出现在人们的视野范围中,在尼采、福柯、德勒兹、梅洛-庞蒂以及具身认知理
随着定位技术、无线通信技术以及个人移动设备的发展,基于位置的服务(Location-based Service,LBS)已经广泛应用在生活的方方面面。位置服务提供商(Location Services Provid