语义匹配间隙句生成技术及医患对话摘要方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:hncry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,越来越多的应用场景和需求对文本摘要方法都提出了更高的要求,例如文献检索、临床记录、辅助诊断等。近年来自然语言处理技术逐渐成熟,基于Transformer的模型在文本摘要任务中被广泛使用。但是,Transformer模型对于输入长度是有限制的,过长的输入容易导致重要语义内容丢失。同时,预训练Transformer模型如何选择句子进行遮盖操作也是值得探讨的问题。此外,近几年针对对话场景下的文本摘要方法研究也逐渐得到关注。在医患对话这种特殊场景的文本摘要任务中,需要根据该场景的特点以及摘要的用途生成临床记录摘要,对医生快速了解病情以及帮助下游任务作辅助诊断具有重要意义。但由于医患对话摘要研究起步晚且数据涉及患者隐私,现有的医患对话数据集不足以支撑大规模的训练,标注数据稀缺的问题尤为突出。因此,本文针对上述问题展开了以下研究:(1)为了解决Transformer模型输入长度受限和如何选择句子进行遮盖的问题,本文提出了一种基于语义匹配间隙句生成的文本摘要方法。当遇到长度超过输入限制的文档时,独立截断可能会出现重要内容缺失的问题。因此,提出了滑动窗口指针生成网络模块来提取重要内容。该模块允许窗口之间语义信息交流,缩小文本长度的同时保留较全面的语义信息。在生成摘要时,本文认为:优质摘要的语义应该是最接近文档的,所以选择遮盖的句子组语义也应接近文档语义。因此,提出了语义匹配模块和间隙句生成模块。其中,前者选择语义匹配度高的候选句子组,后者将选择的句子在文档中作遮盖操作进行训练预测,从而学习到较全面的语义内容,以提升摘要质量。通过多个数据集的实验,验证了本文方法对改善长文本摘要质量的有效性。(2)为了解决医患对话摘要中标注数据集稀缺的问题,本文结合医患对话具有特定主题的特点,提出了一种基于主题结构的医患对话摘要自监督学习方法。首先,将医患对话主题结构分为症状、个人属性、用药、检查结果和过往病史,使得模型更加关注这些内容。其次,自监督学习方法基于原始对话和摘要两者对应诊断结果是相近的原则,构建了诊断结果抽取生成和诊断结果分类两个辅助任务,通过辅助任务的训练学习来提供内在的监督信号。在AMI、Med Dialog数据集的实验中,验证了本文方法的有效性。
其他文献
随着城市化进程的不断发展,传统的监控设备由于其过度依赖人工、效率低下等问题已满足不了当下社会的需求,因此智能监控技术成为了当今的一个热门研究方向,而人群异常行为检测作为这一领域内的主要分支技术,也引起了许多国内外研究者的重视。当前已经有许多人群异常检测技术相关算法被提出,现有的多数方法都是通过将图像分割成均匀区域块的方式来提取特征,但是这种方式会破坏行人个体的完整性,从而降低异常行为检测定位的准确
学位
基于混沌的通信技术由于其在安全通信中的潜在应用而受到广泛的关注。混沌所表现出的复杂特性,如连续的宽频谱,天然的类随机性,长期不可预测性等,为其在保密通信方面的应用奠定了基础。如今,在光通信系统中,混沌信号已被用于加密和解密信息以提供安全性。与电混沌相比,半导体激光器产生的光学混沌具有更宽的带宽与复杂吸引子。激光混沌所具有的内在伪随机特性使得预测和重建动力学的过程变得非常困难。激光混沌对初始参数的极
学位
细分造型方法适用于任意拓扑结构的多边形网格,被广泛应用于动漫、游戏等几何造型领域,具有一定的研究价值。本文主要围绕计算机辅助几何设计(Computer Aided Geometric Design,CAGD)中的细分造型方法展开研究,并基于Coons曲面提出一种适用于任意拓扑四边形网格的插值细分方法。首先,介绍细分造型方法相关的理论知识及经典的细分方法,对这些细分方法进行比较、复现,并总结它们的相
学位
如今含有噪声的多智能体系统的一致性吸引了越来越多的注意,除了设计噪声一致性协议让系统达到一致性问题外,还聚焦在网络的拓扑结构与一致性的相互作用。在问题设置背景下,噪声网络的一致性是由网络的拉普拉斯矩阵的特征值所决定。由于网络拓扑结构的复杂性,解析计算矩阵的特征值面临着技术挑战。本文选取一类环树状网络作为研究对象,它的优点是能够解析分析网络的拓扑结构属性对一致性的影响,利用网络规则的拓扑结构,计算得
学位
雷达有源欺骗干扰通过在真实目标附近产生与其在时频域、空域和极化域中均具有类似特征的假目标,来实现影响雷达工作性能,使其无法准确探测目标的目的,是电子对抗(Electronic Countermeasure,ECM)重要的干扰手段之一。为了尽可能地摆脱来自有源欺骗干扰的威胁,保障雷达正常工作,本文深入研究了典型欺骗干扰产生机理,阐述了雷达抗有源欺骗干扰的研究背景、意义和研究现状,总结了欺骗干扰识别技
学位
广义重心坐标能把多边形或多面体内任意一点表示为其顶点的线性组合,因此在计算机辅助几何设计(Computer Aided Geometric Design,CAGD)和计算机图形学(Computer Graphics,CG)等领域都是重要的研究课题。本文用渐进逼近的思想构造广义重心坐标。在平面上,给定多边形及其内一点,首先将多边形投影到以该点为圆心的单位圆上,依次连接投影到同一圆上的各边的中点,形成
学位
随着国家、企业和个人对网络信息安全的高度重视,以生物特征信息为依据的识别技术在各个领域得以广泛应用。相比于指纹、人脸等常见的生物特征识别技术,心电(Electrocardiogram,ECG)信号具备“活体”识别的高防伪性,基于心电信号的身份识别技术在一定程度上确保了身份识别系统对外来侵入的高度抵抗力,具有较大的发展潜力。本文结合信号处理和人工智能算法,从单导联心电信号的质量评估、信号去噪、基于特
学位
文献在学术交流的过程中发挥着重要的作用,研究者需要通过阅读文献了解研究成果、学习研究方法、发现存在问题。在过去,文献被引频次是最重要的学术影响力评价标准之一,研究者一直利用该评价标准作为参考来筛选文献。然而一篇文献的被引用数受很多因素的影响,例如是否有大量的研究者关注同一个研究课题,所以不能简单的利用文献被引频次来筛选文献。为了找到更加准确的文献计量方法来评估学术成果,越来越多的研究者开始关注引文
学位
知识蒸馏是一种深度神经网络的模型压缩技术,知识蒸馏将预训练的大型模型作为教师,小模型作为学生,将教师的知识转移给学生来达到压缩模型的目的。目前,知识蒸馏已经广泛应用到图像识别、自然语言处理、语音识别等领域中。与此同时,知识蒸馏因其压缩模型的能力,在汽车辅助系统、视频监控系统、大型推荐系统等对资源,效率要求严苛的领域有较多应用。在线协作知识蒸馏方法是知识蒸馏方法的改进,此方法省略了预训练大型网络模型
学位
随着通信技术的快速发展,如何提高通信技术的质量显得至关重要。在信道编码技术方面,Arikan提出的极化码是唯一可以从理论上达到香农容量极限的编码方案,并且凭借其优秀的性能已经被广泛应用到各种数字通信系统,如5G、可见光通信(Visible Light Communication,VLC)等领域。VLC作为一种在空间内以可见光为载波的通信技术,不仅可以避免电磁干扰,而且充分利用可见光频谱来替代传统的
学位