基于小样本电子病历语义文本相似度的半自监督学习方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:chenhaun0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义文本相似度计算作为信息检索、文本聚类、语义消歧、自动问答等研究工作的基础共性问题,其研究的主要内容是衡量文本之间的相似程度。医疗信息化发展至今已经积累了大量的电子病历文本数据,将语义文本相似度研究的方法应用在这些文本数据中将有助于推动医疗信息化的发展。使用传统方法研究医疗领域的语义文本相似度任务主要获取的是文本的浅层次信息,而基于深度学习的方法虽然可以获取深层次的文本语义信息,但是这类方法对有标注数据有很强的依赖性。本文研究的重点内容是克服语言模型在小样本的电子病历文本相似度任务上对有标注数据的依赖问题,实现模型在小样本数据上不仅可以得到好的分数还可以得到高质量的句子表示。针对医疗数据专业性强,数据集保守,数据量少等带来的限制,本文提出了两种解决方法分别应用于不同的数据场景下。(1)提出一种适用于无监督学习的多级双向交叉蒸馏编码器(Multistage Bidirectional Cross Distillation Encoder,MBCDE)模型。MBCDE模型使用改进后的自监督学习方法在医疗领域的语料库上对预训练语言模型进行无监督的训练,可以得到医学领域更高质量的句子表示。利用双向编码器和交叉编码器在语义文本相似度任务上的不同表现结合模型蒸馏的方法,提出双向交叉蒸馏编码器方法。MBCDE模型将不同类型编码器的预测结果融合得到最终的预测结果,该结果鲁棒性强、质量高。(2)提出一种适用于半监督学习的双向交叉动态轮询学习编码器(Bidirectional Cross-Dynamic Round Robin Learning Encoder,BCDRRLE)模型。BCDRRLE使用本文提出的动态轮询学习机制更新无标注数据集上的标签,将无标记数据应用到模型的训练过程中,且模型的学习同样会对无标记的数据产生影响。利用这种轮询学习的机制,不仅扩充了任务数据集的数据量,而且也使得模型的结果更加的优秀。实验结果表明,在三份电子病历语义文本相似度任务数据集上MBCDE模型使用无监督的方法取得了超过有监督方法的成绩,BCDRRLE模型则使用半监督的方法取得了明显优于其他模型的结果。本文提出的研究方法为小样本电子病历语义文本相似度问题提供了解决方案,同时也为其他保守领域解决依赖标注数据问题提供了参考。
其他文献
<正>3~6岁是培养幼儿动手能力和大脑技能的关键时期,同时也是培养幼儿创造力和想象力的重要时期。幼儿园创意艺术活动是一种幼儿教学活动,它以幼儿技能发展和个性发展为核心,以教师指导为基础,以课程主体为线索,通过多种艺术表现形式的结合,促进幼儿创意艺术能力的发展。幼儿创意艺术活动属于创意教育的范畴。教师在幼儿教育中开展创造性的艺术活动,有利于锻炼幼儿的思维能力,挖掘幼儿的创造潜能,促进幼儿更好地发展。
期刊
当前各式各类的统计结果和科研记录的内容大量出现,数据量不断地提升。如何在这种大数据的背景之下,有效地针对不同类型数据进行分析和研究,从海量的数据中提取有用的知识成为时代当务之急的问题。数据挖掘就是顺应这种需要应运而生发展起来的数据处理技术。聚类就是观察分析各种抽象对象,或者是各种实际对象的规律和特征,并将其中具有一些相似性的目标进行分类分析,目前已逐渐成为一种非常有效的数据挖掘分析方法。然而现有的
学位
太阳射电频谱观测是研究太阳爆发的重要手段,太阳射电爆发蕴含着太阳活动的重要信息。太阳射电频谱分为多种类型,对应不同的物理事件。随着射电频谱仪的发展,观测数据呈海量趋势,人工检测和分类太阳射电频谱已难以满足研究工作的需求。因此,如何高效迅速地从这些海量信息中自动检测出太阳射电爆发并对其分类,对于后续科学研究与空间天气预警和预报显得十分重要。本文利用卷积神经网络和迁移学习方法设计网络模型去分类太阳射电
学位
5G技术的飞速发展和移动智能设备的日益普及,极大地推动了各种基于位置的服务(Location Based Services,LBS)的应用和发展,也产生了海量刻画用户日常行为的用户移动轨迹数据。其中,用户签到数据因其独有特点,使得研究者能够从多个维度对用户的移动行为进行研究分析,让基于用户签到数据的用户位置预测逐渐成为当前研究热点。由于用户签到是用户根据自身需求所进行的一种自发行为,充满了不确定性
学位
随着信息技术的日益发达,网络空间中的数据快速增长,大量数据重复问题产生,而文本匹配是解决这些问题的必备技术,被广泛应用于各种应用系统,比如信息检索、信息流推送、智能问答系统等。文本匹配在英文领域取得了很好的效果,但受语义、结构复杂,词性、情感多样等因素制约,在中文领域仍需深入探究。针对中文文本匹配,本文基于深度学习,开展了如下工作:(1)提出了多粒度内外相关的残差模型,挖掘中文的深度语义信息。首先
学位
盐雾试验、湿热试验存在检测试验周期较长、数据的重复性差等缺点,根据防锈油的性能研究需求,将电化学工作站中的腐蚀试验测试方法应用于防锈油的防锈性能研究中,探究防锈油的电化学性能与盐雾试验、湿热试验数据的相关性。在盐雾试验、湿热试验的基础上,进一步采用电化学循环伏安法研究防锈油的性能,验证了电化学方法研究防锈油的性能与盐雾试验、湿热试验的结果一致性。在实际研究防锈油性能时提高了评估检测效率。
期刊
随着第五代通信系统(Fifth Generation Mobile Communication,5G)的到来,车联网开始蓬勃发展,传统云计算(Cloud Computing,CM)的高延时特性等,已经不能满足车联网中的各种智能应用的要求,如自动驾驶、智能娱乐、智能交通等。为了解决这些智能应用对数据的计算、存储和通信的新要求,移动边缘计算(Mobile Edge Computing,MEC)应运而生
学位
细菌可以通过调节分泌系统的蛋白质与宿主蛋白质形成互惠或致病的联系。分泌系统的蛋白质序列具有高度的多样性,并且缺乏明确的分泌标记,使得序列难以被识别和预测。为了满足通过计算方法识别分泌系统的蛋白质序列的需求,一些计算工具已经开发出来。尽管这些计算工具可以在一定程度上帮助研究人员进行生物学实验,但是,因现有方法在识别新的效应子方面效率还是较低,并且无法完成整个细菌基因组的大规模筛选,即使对于当前的最佳
学位
认知科学与计算机视觉早已形成了一种密不可分的关系,通过对视觉认知的研究可以推动计算机视觉与人工智能的发展。在对视觉信息加工处理的机制进行研究时,一个重要的研究方向就是大脑在无意识的情况下,是否还可以进行视觉处理。本文将借助持续闪烁抑制(continuous flash suppression,简称CFS)实验范式、强制二选一(two-alternative forced choice,简称2AFC
学位
多聚焦图像融合是将多幅同一地点拍摄的不同聚焦区域的图像进行融合,得到全清晰图像的技术,多聚焦图像融合技术成为了多年来的研究热点。在学者研究过程中发现,多聚焦图像融合的难点在于对清晰区域的判定以及对图像纹理,光照,空间关系等细节的保留,尤其是介于清晰与模糊区域边缘的细节。本文针对这些现有问题进行研究,其主要工作与创新成果如下:本文提出一种嵌套式卷积神经网络图像融合方法。该网络结构由两个相互嵌套的U-
学位