融合预训练语言模型的生物医学文本挖掘研究

来源 :南华大学 | 被引量 : 0次 | 上传用户:xiaowen51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于医疗信息化的高速发展,生物医学文本数据的规模呈爆炸式增长,生物医学文本挖掘变得尤为重要,它能从海量生物医学文本数据中挖掘出有用的信息,为医学研究、临床决策等方面提供有力的支持。随着预训练语言模型BERT的成功,表明了预训练模型在自然语言处理领域的重要性。在生物医学领域中,Bio BERT、Sci BERT等基于BER T的衍生模型通过在大型生物医学语料库上进行预训练以获取生物医学知识,并在多项生物医学文本挖掘任务中取得良好效果。然而,研究发现,大多数生物医学预训练语言模型依赖于传统的遮蔽语言模型(Mask ed Language Model,MLM)任务。当随机掩盖策略未能掩盖医学相关术语时,模型则无法充分捕获医学上下文语义关系。此外,由于中文生物医学语料资源的缺乏以及中文医学术语的复杂性和多样性,使得模型学习中文生物医学知识存在困难。针对以上问题,本文研究的主要内容如下:1.本文提出了一个基于知识注入的中文生物医学预训练语言模型CMed BERT。该模型采用医学百科中的文章结构作为弱监督信号,将百科结构中所包含的医学术语及其方面作为标签,训练模型从医学描述文本中推断出相应的医学术语和方面,从而捕获生物医学上下文语义信息。该方法不仅避免了因传统MLM随机掩盖策略而无法充分捕捉医学上下文语义关系,同时还减少了人工标注所耗费的时间和标注成本。2.为了进一步提高模型的性能,本文在下游任务的微调阶段引入对抗训练。通过在词嵌入层添加对抗扰动的方式,对模型进行正则化,并对FGM、PGD、SMART、ALUM和Free LB五种对抗训练方法进行实验比较。3.为了评估模型在生物医学文本挖掘任务上的性能,本文在CBLUE评测标准1.0所提供的八个中文医疗信息处理任务上进行实验。其中,相比于四个基线模型,基于FGM对抗训练方法的CMed BERT-adv模型,平均得分提高了1.8%。
其他文献
随着国家鼓励实体经济的发展,线下零售企业规模不断增长,货架作为零售领域三大元素之一“场”的最小分割单元,成为零售企业的主战场,场指各种线下门店,比如超市、便利店等。零售企业传统的货架陈列管理方式依赖Excel表格进行,总部与门店沟通效率低下,很难对门店货架陈列进行管理与监控,如何对货架陈列进行高效的管理成为一个非常具有研究价值的课题。本人所在实习企业为了解决旗下自营门店快速扩张带来的货架陈列管理问
学位
温度、盐度和深度是海洋基本水文参数,准确可靠的温盐深参数测量对环境监测、灾难预警和国防安全都具有重要意义。本文以开发小型化、低功耗、大量程的温盐深测量系统(CTD)为目标,从软硬件设计、传感器定标、系统测试等方面开展研究工作,主要工作包括:(1)结合海洋研究的实际需求,确定了关键技术指标,提出了包括水下测量模块、甲板监控模块和实验室定标模块的总体设计方案;设计了基于NTC热敏电阻(Negative
学位
随着节能与新能源汽车的不断发展,绿色二次电池的研究与发展呈现显著增长态势。近年来,电芯制造行业迎来了高速发展,电芯制造的过程越来越智能化。由于电芯制造的过程复杂,工序较多,为了提高电芯行业的发展,提高电芯制造的效率。因此必须对采集到的电芯制造数据进行必不可少的数据清洗,然后才可以进一步挖掘数据的隐藏价值。电芯制造过程的工艺流程复杂,记录各个工序的数据特征不同,数据维度较多,对数据清洗带来了巨大的挑
学位
喀斯特地区是我国耕地土壤中重金属地质背景高水平的主要分布区,众多研究表明该区域碳酸盐岩(灰岩和白云岩)形成的土壤中砷(As)背景值较高。土壤中过量的As累积会对生态和人类健康构成风险。本研究从贵州中部典型喀斯特地区采集了198个表层土(0-20cm)和9个土壤剖面,通过分析表层土壤、深层土壤及岩石中As的含量及赋存形态,探究土壤As的富集特征,空间分布规律,并通过相关性分析、PMF模型、化学蚀变指
学位
随着成品油零售市场竞争日趋白热化,成品油零售企业销售压力随之剧增,企业对利润的高度关注往往忽视了劳动用工管理方面的诸多问题,加油站普遍存在员工工作时间超过法定工时的情况,随着员工法律意识、维权意识日益增强,劳资关系日趋紧张,对加油站进行合理排班成为当务之急。加油站员工排班看似很容易确定,但实际上排班涉及因素众多,因此建立加油站可量化的动态调整的排班模型是本文拟解决的关键性问题,如何避免劳动用工超时
学位
随着我国近些年来在社会、科学和经济等多个领域的健康稳定发展,城市土地面积日益扩张与机动化程度不断提高,城市交通供需平衡被打破,城市交通面临着多方面的挑战。多种倡议、举措和应对方案被交通领域内的专家提出,特别是大力推进公共交通优先发展的提议,对于改善乘客换乘服务质量、高效利用资源、降低乘客出行成本以及提高公共交通吸引力和竞争力具有重要意义。因此,本文从优化轨道交通与常规公交线路布局以及公交站点选址的
学位
随着国家经济的发展以及“双碳”目标等相关政策的出台,我国的经济结构和能源结构逐渐向绿色理念发展,导致了煤炭的主体地位下降,煤炭运输市场不景气,以煤炭运输为主要任务的煤炭运输通道能力得到了有效释放。与煤炭运输市场相反,非煤运输市场得到了有效发展,为了应对市场的变化,铁路运输企业提出了“大物流”的相关举措来发展非煤运输。由此,如何利用既有设施设备发展非煤运输,是铁路运输企业目前需要解决的主要问题。本研
学位
氟氯烷烃类(CFCs)化学气体灭火剂“哈龙”因其优异的灭火效果曾被广泛应用于各领域及场所,但由于在灭火过程中会对臭氧层造成极其严重的破坏已被禁止使用。对于民航飞机上高空、密闭环境的特殊性,还未有能完美替代“哈龙”的灭火剂,故“哈龙”灭火剂在民航领域使用时间暂得延长。氢氟烷烃(HFCs)类灭火剂虽然解决了对臭氧层的破坏问题,但会造成巨大的温室效应,作为过渡产品也即将被淘汰使用。最新一代氢氟烯烃(HF
学位
近年来,我国高速公路桥梁建设规模呈增长趋势,并取得了举世瞩目的成就,但与之相伴的是居高不下的施工安全事故,威胁着现场作业人员的生命安全,造成了大量的经济损失,也带来了严重的社会影响。因此,开展高速公路桥梁施工安全风险评估研究是实现我国安全生产政策理念的重要课题。本文以高速公路桥梁施工安全风险为研究对象,以文献材料、规范条文与典型事故分析为基础,取得了以下主要研究结果:(1)在高速公路桥梁施工特点、
学位
早高峰时段车辆段发车能力下降会造成车底延时上线,从而导致早高峰时段运力与客流需求不匹配,严重影响乘客服务质量。因此,有必要在车辆段发车能力下降情况下,对地铁开始运营至早高峰时段的行车计划进行优化。本文以双车辆段地铁线路为研究对象,通过分析车辆段发车作业过程、列车交路方案以及折返作业过程,构建发车能力下降情况下考虑小交路折返的列车运行计划编制优化模型,并设计遗传算法进行求解。最后以上海地铁1号线为案
学位