面向中文电子病历的命名实体识别研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:CmMocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内医疗信息化的发展,越来越多的医疗机构开始使用电子病历存储病患信息,由此也产生了海量的电子病历。电子病历命名实体识别能够挖掘出电子病历中存储的患者症状、疾病名称、检查措施等重要医疗信息,可用于建立智能电子病历系统,协助医务人员进行诊断决策,促进医疗领域信息化建设,近年来受到越来越多学者的关注。目前的中文电子病历命名实体识别任务中,存在着实体类别不平衡和特征稀疏的问题。针对实体类别不平衡问题,本文首先提出了一种基于同义词过采样的中文电子病历命名实体识别模型(CSOT-BiLSTM-CRF)。在此模型的基础上,考虑到电子病历文本中存在的实体特征稀疏问题,又提出了一种基于多特征融合的中文电子病历命名实体识别模型(Fusioninput-BiGRU-CRF)。本文主要研究工作包括以下两个部分:(1)基于CSOT-BiLSTM-CRF的中文电子病历命名实体识别研究。首先通过结合同义词词林拓展版,改进了一种词语相似度计算方法,并根据该方法提出了一种结合同义词的过采样算法(Combine Synonyms Over-sampling Technique,CSOT);然后利用该算法对少数类进行过采样,以构建类别相对平衡数据集;接着为了捕获文本较长距离的依赖关系,将向量化后的数据输入到BiLSTM神经网络中提取上下文特征;最后将特征提取后的概率矩阵输入CRF中自动学习标注序列中隐藏的约束条件,并解码获取最终标注序列,完成命名实体识别。实验显示,CSOT-BiLSTM-CRF模型在完成命名实体识别任务的基础上,使两种少数类的F1值分别提升7.80%和8.95%。(2)基于Fusioninput-BiGRU-CRF的中文电子病历命名实体识别研究。在模型(1)的基础上,考虑到电子病历文本中还存在着实体特征稀疏问题,提出了一种Fusioninput-BiGRU-CRF识别模型。首先抽取出类别相对平衡数据集中实体的词边界、词性和依存分析特征,并将各特征映射成向量形式;然后通过向量维数为各特征向量赋予不同权重,并连接生成多特征融合向量,以增强实体语义表达;接着为了提高实验运行效率,将多特征融合向量输入到BiGRU神经网络,自动提取文本特征;最后利用条件随机场对实体标签进行预测,实现命名实体识别。实验显示,Fusioninput-BiGRU-CRF模型在CCKS2017数据集中的F1值达到89.27%,取得了不错的识别效果。图[19]表[14]参[64]
其他文献
月球基地建设是未来月球探索的重要目标,利用原位资源进行月球建设是较好的一种选择,这种方法可有效降低月球开发建设的风险和成本,所以利用模拟月壤为原料制备月壤地聚合物。进行模拟月壤及其地聚合物的力学性能试验,分析固化机理,为未来月球基地建设提供试验数据。论文在不同环境温度和不同NaOH掺量下对模拟月壤进行无侧限抗压强度试验、三轴压缩试验、X射线衍射试验和扫描电镜试验。主要研究内容如下:(1)选取2.5
随着以比特币为代表的加密数字货币的流行,区块链技术受到了工业界和学术界极大的关注。通过对分布式存储技术、对等网络、共识算法、密码学技术和智能合约等传统计算机技术的应用,区块链具有了去中心化、去信任、不可篡改、公开透明等特性。利用区块链技术可以在一个不可信场景下构造一个可信的计算环境,颠覆了传统由权威机构背书的信任模式,其发展势必会为各领域带来革命性的影响。区块链本质上是一个分布式环境下由众多不可信
为更好地展现天然纤维混凝土的力学性能,同时满足绿色循环经济及节能环保等社会需求,本文先进行纤维混凝土的理论分析,接着通过将剑麻纤维、黄麻纤维及竹纤维以不同的体积掺量分别加入到混凝土中,进行基本力学性能试验并分析试验结果,得到其最佳纤维掺量,然后进行混掺天然纤维混凝土试验和落锤冲击试验等,综合分析天然纤维的增强效果。通过基本力学性能试验得出,素混凝土的抗压强度为35.6MPa、劈裂抗拉强度为3.04
煤矿区内浅表层水体除河流及浅层地下水外,还有因采煤而形成的塌陷塘,这些水体均为矿区工农业生产、渔业养殖及附近居民生活的重要水源,其水质状况备受关注。从水文动态看,塌陷塘水相对静止,河流及浅层地下水均处于流动状态(但前者流速较快,后者流速十分缓慢)。由于它们均发育于同一地区的浅表层,相互之间会存在不同程度的水文地球化学联系,因而研究同一地区不同动态的浅表层水体水文地球化学区别与联系具有重要的理论和实
微塑料是塑料垃圾在环境中经过物理化学机制作用下降解而形成的一种新型污染物,正在成为全球关注的环境热点。然而,目前对微塑料老化特性及机理的研究还很有限;重金属是土壤中普遍存在的污染物,在这些环境中很可能与塑料污染物共存,并且微塑料可以作为载体结合重金属形成复杂的复合污染物,将对土壤带来更严重的损害,重金属在土壤中的吸附行为已有学者研究。然而,微塑料对重金属与土壤的吸附行为的影响却很少被研究。因此,本
随着浅部煤炭资源日益枯竭,我国中东部煤矿大多已进入深部开采开拓阶段。与浅部相比,煤矿深部巷道围岩在高地应力、高地温、高渗透压以及开采扰动的综合作用下,其变形破裂机理更为复杂,大变形失稳等工程灾害问题更为严重。要实现深部围岩的长期稳定,不但需要制定科学合理、经济可行的支护方案,而且需要对支护后的围岩内部变形情况进行长期监测,从而保证围岩局部发生破裂时及时采取措施进行补强支护,避免巷道整体失稳。然而,
土壤是农业生产的必要条件,土壤污染不仅危害人类健康,对自然生态系统也会造成影响。当前我国农药、抗生素类化学药品的广泛使用导致土壤环境严重遭受破坏,相关研究多以单一污染物为研究对象,未考虑当前土壤多元联合污染,揭示多元联合污染下污染物的空间分布特征及对土壤环境的影响,对污染土壤的治理修复有着重要意义。本文以华北某区域土壤典型农药及大环内酯类抗生素残留为研究对象,综合运用统计学、环境生态学及地理信息系
随着科技快速发展,几乎每一部智能终端都搭载了全球卫星导航系统(Global Navigation Satellite System,GNSS)芯片,其提供的位置服务(Location Based Services,LBS),在出行、社交和购物等方面极大的丰富和便捷了人们的日常生活。2016年,Android7.0操作系统开放了安卓智能终端GNSS原始观测数据的获取接口,因此,在安卓智能终端上实现高
近年,深度学习引起众多学者的关注,卷积神经网络能够从图像中学习到更有效、更可靠的特征,这极大地推动了目标跟踪、行为检测、无人驾驶、人脸识别等研究领域的发展。传统目标检测算法获取的特征信息主要是低层信息,使得检测不准确,检测准确度较低。深度学习的发展,提出了一系列性能优良的目标检测算法,可利用多层网络模型从大量数据中学习抽象结构的特征信息,以此显著提高目标检测的精确度。本文针对SSD目标检测算法存在
通过在输入数据上添加少量精心构造的人类无法识别的扰动,可以使神经网络模型输出错误的预测结果,一般将添加了此类扰动的样本称为对抗样本。对抗样本具有迁移性,即利用已知模型构造的对抗样本仍然具有较大概率对其他模型形成有效黑盒攻击。这种黑盒攻击方式降低了构造对抗样本的代价,从而使得当前的人工智能系统暴露在严重的安全风险之下。为了更好的理解对抗样本的生成机理,探索深度模型在进行分类、识别等任务中所暴露的盲点