基于ALBERT-TextCNN模型的多标签医疗文本分类方法

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户:sammi696
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有Word2Vec和Glove等静态词向量表征方法无法解决文本完整语义的问题,结合ALBERT预训练语言模型和TextCNN卷积神经网络,提出一种用于多标签医疗文本分类的深层神经网络模型ALBERT-TextCNN.该模型采用ALBERT预训练语言模型进行动态字向量表示,通过其内部多层双向的Transfomer结构获取更高效的文本向量表达,并引入TextCNN卷积神经网络模型构造多标签分类器进行训练,提取不同抽象层次的语义信息特征.在中文健康问句数据集上进行算法性能测试,实验结果表明,该模型分类的整体F1值达到了90.5%,能有效提升医疗文本的多标签分类效果.
其他文献
塔里木盆地沙尘天气具有独特的持续浮尘滞空区域特征.目前塔里木盆地浮尘天气的气候学特征认知依然停留在1990年,亟待认知近30年塔里木盆地浮尘天气的变化特征.因此,利用1991—2020年塔里木盆地27个观测站浮尘天气观测资料,分析塔里木盆地近30年浮尘天气的时、空变化特征,并给出盆地持续浮尘天气的频次分布,以加深对塔里木盆地浮尘“滞空”变化特征的认识.近30年(1991—2020年)塔里木盆地浮尘日数年际变化趋势呈“V”型特征,即1991—2011年浮尘天气呈现整体下降趋势,但2012年以来反转为上升趋势
针对传统的ReliefF算法仅能处理单标记数据,以及其改进算法没有充分利用样本间相关性等问题,提出一种基于改进ReliefF的多标记特征选择算法.首先使用余弦相似度函数衡量样本特征间的相似程度,利用杰卡德距离度量样本的标记之间的标记相关性,定义样本间相似度函数度量样本在整个样本空间的相似关系.然后,定义样本的同类或异类判别公式,判断随机样本的最近邻同类和异类样本.最后,提出新的特征权值迭代公式改进ReliefF算法,设计多标记特征选择算法.通过平均分类精度、覆盖率、1错误率、排序损失、汉明损失这5种评价指
双线偏振雷达定量降水估计精度受多种因素影响,为了更好地应用双偏振雷达估计降水并进一步提高降雨估测精度,需对雷达降水估计进行误差分析和建模.基于2015—2016年南京信息工程大学C波段双偏振雷达、雨滴谱仪观测资料以及南京地区雨量计数据,统计分析雷达估测降水的误差分布,分离雨量计代表性误差,并对随机误差和系统误差量化建模.首先对双偏振雷达数据进行预处理,并利用雨滴谱仪数据拟合测雨方程,通过对R(ZH)、R(ZH,ZDR)、R(KDP)、R(KDP,ZDR)4个测雨公式反演结果与雨量计对比,分析每个测雨公式在
控制工程理论的数学基础往往是专业课所忽略的.在拉氏变换、分式展开、劳斯表、离散化微分等公式中补充和强调了相应的数学基础,建立了不能求得传递函数的弹簧-质点-干摩擦系统的数学模型,提出了转子系统的黏性力矩阻尼系数命名.研究易化了该学科的理论.
研究设计了一种结合中尺度模式物理约束的雷达回波临近智能外推预报方法,该方法在外推预报时效(0—2 h)内即利用中尺度高分辨率模式信息对外推进行约束.首先将模式风场和雷达回波轨迹风场融合成融合风场,然后利用融合风场光流外推形成动力约束外推;并在此基础上利用模式诊断产品和雷达历史资料通过投票回归器集成多种深度学习算法构建回波强度频率分布的预测模型,最终基于预测模型结果利用降水频率匹配订正技术对外推预测的原始回波强度进行订正形成物理约束外推方法.通过2个典型个例,以及2年主汛期的长期检验对原始光流法、动力约束外
以一个绿色产品制造商和一个零售商组成的绿色供应链为研究对象,基于三种博弈结构探讨制造商谎报成本信息时绿色供应链决策问题.研究发现,不谎报决策时,绿色水平在RS博弈中最优,批发价格和零售价格在MS博弈中最优,且不论供应链主导力量如何,主导者能够体现出供应链利润的分配优势.当MS博弈时,制造商不会谎报成本信息;当RS和VN博弈时,制造商为追求利润最大化会高报其成本信息,且与VN博弈相比,RS博弈时制造商谎报的程度更大且其成本谎报行为导致零售商和整个供应链的绩效受损.因此,引入成本共担契约对绿色供应链进行协调,
为了提高2 min平均的10 m风预报精度,开展了多种建模和检验方法比较.根据欧洲数值中心集合预报系统产品及北京海陀山的5个测站资料,使用一元回归、岭回归、神经网络、粒子群-神经网络等方法建模,进行2021年2月逐日的未来3天6 h间隔预报误差订正,并从多个角度分析预报精度差异.结果为:(1)系统误差、预报准确率检验表明,建模订正后的预报误差均明显减小.(2)频率关系图揭示,回归法在弱风区(大概率事件)有较好的订正能力,神经网络法在不同风速区都有正向的订正效果.(3)大风过程预报的对比显示,建模方法能有效
地理学科中的区域地理课程是我国课程思政的最佳载体之一.在探讨课程思政元素挖掘和分类、知识传授与思政元素融合等方面理论探讨的基础上,以《地理中国——青藏高原》MOOC为例,对该课程的思政价值和内涵进行了深度挖掘;从国家和个人2个层面7个类型的思政元素与课程知识传授过程有机融合方面进行了探究.研究表明:青藏高原在区域地理教学中思政元素极为丰富,将其梳理挖掘归纳为3大精神源区和21个精神源地,遵循课堂教学的课前、课中和课后的教学逻辑,将《地理中国——青藏高原》MOOC思政元素在课程中内化于心、固化于制、外化于行
鲍恩比能够综合反映陆面气候状态的物理特性,是有效刻画生态系统水热分配的关键参数之一.本研究利用安装在定西和庆阳的涡动相关系统开展了黄土高原半干旱和半湿润农田生态系统能量分配特征观测试验,研究了生态环境因子对鲍恩比的影响机理,揭示了干、湿条件下生理生态因子对水热交换的响应规律.结果表明,处于半干旱区的定西年内感热通量是可利用能量的主要消耗项,即使在降水较为集中的季风期,其鲍恩比依旧在1附近波动.对于半湿润地区的庆阳而言,夏季潜热通量在能量分配中占主导地位(鲍恩比平均为0.71),其余三季感热在能量分配中起支
在CMA-GFS(CMA Global Forecast System)全球四维变分资料同化系统(4DVar)基础上,参照BDA(Bogus Data Assimilation)方法,建立了一个全球模式台风初始化方案.该方案通过4DVar同化窗口吸收诊断处理后的1 h间隔台风中心定位及中心气压信息,利用模式动力物理约束产生台风环流.同时,考虑到模式对台风的分辨能力,中心气压数据误差采用动态调整技术.2016年西北太平洋22个台风的试验表明,新方案不仅可以促进初始场中台风环流的生成,还可以显著减小CMA-G