基于迁移学习和集成学习的医疗文本分类方法研究

来源 :云南民族大学 | 被引量 : 0次 | 上传用户:moli2146
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文健康问句作为一种特定形式的医疗文本,具有复杂的医学专业术语和大量的缩略词语等特点,以及自然语言普遍存在的同义词、反义词和一词多义等现象,在文本处理过程中,面临类别标签和层级关系复杂、有效标注数据样本较少、不同问句文本之间语义相似度高等问题,这使得针对该特定医学领域的文本分类任务更具挑战性。本文主要探索在特定目标领域中文小样本上的最佳学习模型,利用预训练语言模型通用和强大的泛化能力,基于ALBERT基准模型框架,提出了一种基于迁移学习和集成学习的医疗文本分类方法,并提供了两种变体模型:TLCM模型和TCLA模型,主要工作及创新点如下。(1)引入在通用领域表现较好的ALBERT预训练语言模型进行动态词向量表征,通过模型微调技术调整ALBERT模型的Embedding输入层结构、多层双向Transformer结构以及下游分类子任务的网络结构,其中,Embedding输入层采用迁移学习方法将健康问句描述文本以字级别进行输入进行字向量表示。(2)迁移ALBERT模型内部原始的多层双向Transformer结构,并将训练后的输出向量与CNN结构、Bi-LSTM结构以及Attention注意力机制等多个混合神经网络模块相结合进行监督式集成训练,分别提出了TLCM和TCLA模型两种框架进一步提取文本的局部信息特征和全局结构信息特征构造分类器。(3)在下游任务中,构建了一类多标签分类子任务,设计了两个具有完全连接结构的多层感知器构造文本多标签分类器,利用交叉熵机制和sigmoid激活函数对文本的上下文表示生成标签,实现中文健康问句描述文本的主题分类。实验结果表明,在中文健康问句的多标签分类任务上,本文提出的TLCM模型和TCLA模型在Precision、Recall、Micro_F1等各项评测指标中均达到了91%左右,具有良好的性能表现,能较好地解决传统文本分类算法对医疗文本语义理解不足、类别标签单一、分类精度较低的问题。相比传统word2vec静态词向量表示,预训练语言模型的引入使得算法性能得到显著提升,在医学文本信息挖掘领域展现出了较高的发展前景。
其他文献
中国民族典籍内涵丰富,其中蕴含的民族文化和民族精神维系着民族的命运、生存和发展。对民族典籍进行翻译是中西方文化交流的重要内容和纽带,是中国文化对外传播的主要组成部分。目前,在传统文化典籍的对外译介上,国内译界主要以汉语和汉文化典籍的翻译为主,民族典籍的翻译相对较少,其困难在于国内做典籍翻译的人数量本就不多,而把民族典籍翻译作为选题进行理论研究的则更少,因为这需要一定的古文基础和对民族典籍有深入的了
学位
阿库乌雾是当代少数民族作家中颇有建树的彝族诗人,他提出的多项诗学理论在少数民族文学研究领域极具影响力,国内学界称呼他为“少数民族先锋诗人”,国外学界则称其为“招魂诗人”“濒危语种的诗人”等。他不仅运用母语创作,还坚持汉语创作,在汉语诗歌创作、彝族文学的现代转型、彝族优秀传统文化传承传播方面成绩斐然,并对当代中国少数民族文学理论的创造性重构进行了卓有成效的探索,为少数民族作家的汉语创作提供了宝贵的艺
学位
巴迪乡位于滇西北,是一个以农业为主的偏远小镇。因突如其来的国家大型工程(乌弄龙-里底电站两座巨型水坝)的进入,当地的多元主体开始分野,通过各自的生活机会,在巨变中,不断地互动与共生。巴迪乡在经历过建设时期的工地社会后,所形成的电站系统、商贸系统与新当地人系统渐渐铺展。本文所谈的水坝社会是在现代化国家中以工业设施水坝建设为中心所形成的一个新的社会系统。电站建设时期的水坝社会,是一个混乱、动态、过渡性
学位
氰基是常见的官能团,具有碳氮三键的结构,具有较强的极性和吸电子性。含有氰基的腈类化合物日益成为有机化学中的重要合成前体,因为氰基可以被转换为酯基、羰基、羧基等基团。此外,在临床治疗中很多药物分子中含有氰基,氰基的引入可以改变分子的动力学特征和物理化学性质,以及改善药物分子的生物利用度。而在不同的腈衍生物中,β,γ-不饱和腈已成为合成化学中具有各种生物活性的重要前体。目前,合成腈类化合物的方法常需要
学位
元音分长短是侗台语语音的一大特点。侗台语长短元音专题的研究,对于侗台语古音的重建和韵母系统演化规律的探讨具有重要的意义和价值,但目前缺乏深入的个案研究。本文以纳思壮语作为个案考察,在田野调查的基础上,运用描写语言学、历史比较语言学和实验语音学等方法,对纳思话的音系面貌进行详细的描写,进而对纳思话长短元音进行深入考察,探究其共时特征、对应、来源与演化。发现:1.纳思话长短元音的类型有a-和o-两种;
学位
灵芝,具有补中益气、滋补强壮,扶正固本之功效,作为中药使用已有2000多年的历史。长期以来,三萜和多糖被人们认为是灵芝的主要药效物质。而近些年,随着各种类型杂萜及其药理活性的不断发现,表明杂萜是灵芝中另一大类重要的成分。赤芝系灵芝属药用真菌,作为药物已正式被国家药典收载。本文以500.0千克保山赤芝干燥子实体为研究对象,采用MCI gel CHP 20P、凝胶柱色谱、正相和反相硅胶柱色谱、制备薄层
学位
阿尔茨海默病(Alzheimer’s disease,AD)作为一种神经退行性的老年痴呆症,一旦确诊将无法治愈,我国作为占全球AD患者最多的国家,人们饱受这个疾病带来的痛苦和经济压力,而且前期患病所表现的症状会被误认为自然衰老,导致错过最佳治疗时间,因此早期确诊并通过药物延缓病情恶化至关重要。近年来,随着医学成像技术和计算机技术的快速发展,机器学习和深度学习的方法在神经影像学领域的研究得到了广泛关
学位
在经济全球化和区域经济一体化的大背景下,中国坚定维护多边贸易体制,积极参与多边贸易合作,推动建设更高水平开放型经济新体制,进一步深化贸易合作,对我国经济增长以及世界经济贸易复苏和增长做出了重要贡献。广东省作为中国经济体量排名第一的大省,具有明显的政策和区位优势,对外贸易多年来保持蓬勃发展的势头。本文探讨的核心议题是在我国对外开放不断扩大的情况下,如何调整进口贸易结构以推动区域经济发展。本文以二元边
学位
随着国内经济发展,中小企业的运行方式更加灵活多变,我国公司双层股权结构的尝试运用也在徐徐展开。香港地区交易所、内地沪深交易所、北交所均已展开实践,为促进国内经济与中小企业发展,国内上市公司双层股权结构正在有序进行中。在公司自治与股东异质化的理论之下,上市公司双层股权结构已具有存在与发展的理论基础,但我国现阶段《公司法》中规定上市公司坚持“一股一权”原则,与双层股权结构的多倍表决权设置存在冲突,虽然
学位
目的 评价CT引导下人工腹水结合三维可视化系统(3DVAPS)辅助射频消融治疗难消融的复发性肝癌的临床疗效和安全性。方法 回顾性分析中山大学肿瘤防治中心2015年3月至2020年12月177例复发性肝细胞癌患者的CT引导下射频消融的资料,其中257个病灶位于有挑战性的消融困难部位。肿瘤预后包括消融相关并发症、人工腹水技术成功率、完全消融技术成功率。结果 177例患者的腹腔注入0.9%氯化钠溶液10
期刊