基于GAN的面向中医文本的命名实体识别

来源 :华北理工大学 | 被引量 : 0次 | 上传用户:qq240927781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医典籍文本具有语句短小、一词多义、句式复杂多变等特点,这些特点导致深度学习模型在进行命名实体识别任务中存在一词多义、短文本语料语义特征稀疏、缺乏中医领域数据集等问题。针对以上问题,提出了一种基于生成式对抗网络的面向中医文本的命名实体识别模型GAN-NER。该模型由基于BERT-Bi LSTM-CRF的生成器以及基于CNN的判别器所组成。生成器模型用来生成实体类别标签,判别器模型用来区分生成数据与真实数据的特征分布是否一致,通过反向传播更新生成器模型参数,使得生成器模型生成出更加准确的实体类别标签。针对中医文本中一词多义的问题,采用BERT预训练模型,该模型利用多层注意力机制生成深层次的动态词向量,通过对同一字符输出的不同词向量进行嵌入并提取句子语义特征的方法改善了中医文本中一词多义的问题。经过对比基准模型实验,模型的整体性能在F1值上提升了5%。针对短文本语义特征稀疏问题,通过特征融合对句子序列的语义特征进行特征分布的构建。将句子的语义特征与其所对应的预测标签相结合,使得稀疏矩阵在融入标签的特征分布后形成高维稠密矩阵。该方法改善了短文本语义特征稀疏的问题。针对中医典籍文本数据样本稀缺问题,引入了生成式对抗网络,通过生成器与判别器之间的相互博弈,使得模型在小语料数据集上经过训练后生成器模型能够从其他数据集中生成出相同知识体系结构的实体类别标签,解决了中医领域数据集稀缺的问题。为了能够从生成样本中选取出与真实样本特征分布相似的样本,通过主动学习算法比较二者特征分布的相似性,进而对生成样本进行排序和筛选,达到输入判别器模型的句子组具有高度相似的目的。将中医典籍中最具代表性的《黄帝内经》和《中医症候学》作为本实验的数据集,并对GAN-NER模型进行消融实验。实验结果在准确率、召回率以及F1值上分别为90.01%、81.33%、85.28%,验证了该模型在中医领域的命名实体识别任务中具有较好的识别效果。图29幅;表12个;参50篇。
其他文献
随着新能源行业的快速发展,分布式电源受到了社会的广泛关注,其被应用于各个场合。分布式电源在不断发展中一直存在两个制约因素:其一,在发电、储能、用电三个工作模式之间存在着能源调配困难的问题;其二,如何提高转换电路的效率与可靠性也是亟待解决的难题。基于这些问题研究了一种用于分布式电源的三端口LLC谐振型DC-DC变换器,可实现能量间的分配,提高电源的效率和稳定性。首先,针对电能分配问题设计了三端口LL
学位
报纸
目的探讨积极二元应对干预对脑卒中偏瘫患者健康行为及生活质量的影响,为帮助患者提升希望水平,养成健康的行为方式,提高患者的生活质量提供临床依据。方法选取2020年8月至2021年8月期间,在唐山市华北理工大学附属医院神经外科住院的100例脑卒中偏瘫患者为研究对象,采用随机分组法,将符合纳入标准的100例脑卒中偏瘫患者分为对照组和干预组,最终每组各50例。对照组患者进行神经外科常规护理,干预组患者在常
学位
随着互联网技术在健康领域的广泛应用,患者电子病历数据系统得以快速推广,短时间内积累了大量的电子病历数据,这些数据隐含许多具有实用价值的信息。对患者电子病历进行数据分析和挖掘,成为健康领域研究热点之一。因此建立基于患者电子病历的个性化药物推荐模型,通过患者的就诊信息推荐其所需药物,辅助医生进行诊断,具有重要的研究意义和应用价值。为了提升药物推荐模型的推荐效果,主要研究内容如下:基于患者电子病历的复杂
学位
目的:探讨等速肌力训练联合悬吊运动疗法对腰椎间盘突出症(LDH)患者下肢肌力的影响。方法:选取腰椎间盘突出症患者30例,随机分为对照组和观察组。对照组给予常规康复治疗加悬吊运动疗法,观察组在对照组基础上增加患侧下肢等速肌力训练(膝关节)。两组均治疗4周,每周5 d,每天1次。比较治疗前后日本矫形外科协会下腰痛(JOA)评分、Oswestry腰椎功能障碍指数量表(ODI)和目测类比评分法(VAS)评
期刊
医学图像融合是一种新兴的图像处理方法,其核心包括多尺度变换和高低频融合,原理为运用数字图像处理技术来提取各种成像设备对同一目标获取的固有特征并融合成清晰、完整的图像,在健康检测与疾病治疗中拥有极高的研究价值。电子计算机断层扫描(Computer Tomography,CT)和磁共振成像(Magnetic Resonance Imaging,MRI)图像的融合具有高软组织清晰度、高密度分辨率和高空间
学位
鉴定矿石中矿物的种类,是工艺矿物学研究的基础;矿石粒度及含量的检测对选矿工艺流程的选择十分重要,具有重要的研究价值。然而,传统方法依靠人工对矿物进行鉴定及测量,效率低、主观性强、标准不易统一。针对上述问题,在已有机器学习和图像处理方法的基础上,搭建矿石检测模型,实现了矿物的自动识别分割及定量计算。研究主要内容如下:(1)针对矿物识别自动化程度低的问题,构建了矿物识别语义分割网络。采集350张矿物显
学位
目的1构建《门急诊医护人员应对突发公共卫生事件的职业防护知、信、行调查问卷》并对问卷进行信效度检验。2调查河北省12所医院门急诊的医护人员在应对突发公共卫生事件的职业防护知识、态度和行为现状。3分析影响医院门急诊医护人员应对突发公共卫生事件的职业防护知识、态度和行为的主要因素。方法1于2020年10月至11月通过文献分析、理论分析、专家访谈构建初始《门急诊医护人员应对突发公共卫生事件职业防护知、信
学位
目的了解生育期乳腺癌患者生育忧虑的现况,探讨生育期乳腺癌患者生育忧虑的影响因素,为临床早期发现并给予针对性干预治疗提供相关的理论依据。方法采用便利抽样法选取于2020年9月到2021年8月间唐山市人民医院乳腺外科住院治疗的408例乳腺癌患者,进行现场问卷调查。以一般资料调查表,癌症后生育忧虑量表(RCAC)、乳腺癌患者自我效能量表(BCSES)、乳腺癌患者心理社会适应问卷、医疗社会支持量表(MOS
学位
思政课是保障学生健康成长的基础课程,是培养"四有新人"的主要阵地,教师队伍要强化对学生思想政治教育的引导,培养广大学生的爱国热情和对国家、对民族的责任感,树立远大的理想和抱负,立志为实现中华民族伟大复兴而努力学习。本文从思政课的重要性和存在的问题入手,旨在发现思政课教学中的策略和方法,使广大教师通过思政课教学,正确引导学生,确保学生思想健康,茁壮成长。
会议