基于双层BiLSTM的医疗实体识别系统研究与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:huangping118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迈入新时代,随着医疗信息化的推进,对医学信息的处理能力要求也日渐上升,将人工智能技术运用于医学领域,可以帮助医务工作者提升工作效率,发现潜在的医学价值信息,也能更好地服务于人民大众,满足百姓的健康需求。命名实体识别作为文本数据处理的基础步骤,为后续数据挖掘,信息抽取,知识图谱任务提供基础的数据服务。因此,命名实体识别技术在医学领域的研究有着非常重要的现实意义。在自然语言处理技术不断向前发展的潮流中,命名实体识别越来越受到人们的关注,在某些领域如科技,金融等取得了一定的成绩。尽管如此,但在医学领域中,由于医学专业的特殊性和中文本身语义表达的复杂多变性特征,命名实体识别在这一领域的研究还存在着以下难题:(1)目前公开的医学文本数据缺乏,基于标注的高质量医学文本如电子病历等更是稀缺;(2)在中文医疗文本命名实体识别中,传统的字词向量表达上下文信息存在不足等问题。基于上述现实问题,本文在深入调研命名实体识别技术应用于医学领域现状的基础上进行了相关研究,研究所采用的数据集来源于biendata的CHIP-2020(Entity)中文医学文本命名识别比赛,主要的研究工作包括:(1)分析机器学习相关算法的缺陷,充分探究比较成熟的Bi LSM-CRF模型在生产实践中的应用,分析其缺陷与不足,Bi LSTM虽然能考虑到上下文的语义信息,也能识别出相应的特征,但是在识别序列的特征重要性程度上尚有困难,针对此问题可以引入注意力机制。(2)针对神经网络模型中的命名实体识别方法在模型训练过程中,传统的字词向量表达过于单一化问题,引入BERT模型后进行预训练,改进Bi LSTM模型为双层Bi LSTM模型,由此提出了基于双层Bi LSTM的BERT-Bi LSTM-CRF识别模型,将大量无标注的数据中的特征补充到网络中,通过对比实验证明该模型能够提升识别效果。(3)系统可视化设计与实现。将本课题的研究成果进行可视化,对算法模型管理和维护集成到Web系统中实现一套可以用于生产实践的医疗NER可视化应用系统,该系统主要面向医务工作者使用,可以对医学文本进行检索,并对识别结果进行可视化分析。对于识别错误或者未收录的新词可以按照一定规则进行人工标注补充到数据集中去以丰富数据集,一方面对模型进行再训练,从而提高识别率;另一方面可以丰富数据集的来源,在一定程度上起到解决标注的数据集匮乏问题。
其他文献
近年来,随着人们活动的多样化,在候机大厅、商场中心等公共场所都逐渐出现人群拥堵现象。人流密度越大会导致公共管理越难,同时,也会带来踩踏等安全问题。密集人群不仅带来了公共管理和公共安全问题,同时也带来了公共卫生问题。随着疫情防控逐步常态化,社会公共卫生问题逐渐得到关注。为有效防止疫情扩散或聚集性发生,应防止人群聚集活动。本文立足于上述问题,针对聚集性场景下人群计数问题,提出将深度学习领域技术和人数统
学位
随着国家信息化建设的发展,将计算机先进技术应用于金融市场,从庞大的数据中学习交易规律,从而制定策略指导交易,已经成为一种非常广泛的投资方式。在人们的物质生活得到了极大提升之后,越来越多的人参与到股票投资之中,程序化的股价研究既能规避投资者因情绪变动而出现的主观误判,又能在庞大的数据中挖掘出人力无法发现的隐藏规律,因而被众多专家学者所关注。对于人工分析股票规律的不足之处,投资者通常希望能获得一种最适
学位
现如今,互联网技术已经深入到人们生活中的方方面面,天猫精灵、Siri以及扫地机器人等人工智能产品已经成为人们生活中常见的科技产品,互联网在极大程度上改善了人们的生活。但同时因为互联网的普及,导致了黑客攻击、恶意软件攻击等入侵行为层出不穷,甚至已经在国家层面对我国安全构成了巨大威胁。因此,如何高效地检测网络中的异常行为已经成为网络安全领域重要的研究部分。网络数据的异常检测是解决网络安全问题的一个重要
学位
以叶县天润新能源叶县25 MW分散式风电项目临时用地复垦方案为例,对临时用地土地的损毁程度、复垦的措施、复垦的效益等进行了分析。
期刊
随着互联网普及率的提高,网民在各大社交平台上表达出的有意识或无意识的民意信息的研究价值越来越大。社会事件发生后经微博媒体发布,在网民的推动下形成热点话题爆发在微博社区,积极了解各热点话题言论中的观点,将有助于决策者了解人民群众的意见与诉求,以便在应急管理、资源分配等方面做出更加科学合理的决策。本文将对微博热点话题的主题内容展开分析和研究,目前研究中对主题挖掘的工作大多停留在主题发现阶段,以主题词代
学位
2121年我国特种纸企业总体开工率78.76%,产销率97.69%。开工率与上年持平,处于历史较低水平。对此,中国造纸学会特种纸专业委员会秘书长刘文撰文,分析了2021年我国特种纸产业发展现状。
期刊
夫妻债务问题一直是婚姻家庭纠纷中的热点问题和疑难问题,民法典吸纳了《夫妻债务解释》的规定统一了夫妻共债的认定规则,以平衡债权人与夫妻双方的利益,但在明确提出夫妻共同生产经营这一概念的同时却未能明确其范围与认定规则。夫妻共同生产经营情形复杂多样,亟需明确共同经营的范围与该类债务的认定逻辑与方法。本文的研究思路主要从以下几个部分展开:第一章讨论夫妻共同生产经营的体系定位。首先介绍作为独立类型的夫妻共同
学位
注册商标连续不使用撤销制度,是各国商标权保护体系中广泛设立的一项重要规则。其功能为清理长期停止使用的注册商标,规范商标使用行为,进而起到维护市场公平、有序竞争的公益目的。本文从我国注册商标连续三年不使用撤销制度的立法现状和运行效果入手,结合国内外最新立法成果及司法案例,对滥用注册商标撤三制度的行为进行系统分析。从商标法和反不正当竞争法两个层面,探寻我国针对这一滥用行为的应对策略和规制措施,并提出相
学位
我国《社会保险法》规定了社会保险基金先行支付制度,包含基本医疗保险基金先行支付和工伤保险基金先行支付。《社会保险基金先行支付暂行办法》对社会保险基金先行支付的经办程序、适用条件和相关主体的责任作出了进一步规定,以期有效指导经办实践。但从社会保险基金先行支付制度实施以来,在经办实践中的实施效果不如人意,引发大量诉讼。本文通过对社会保险基金先行支付司法裁判文书进行研究分析,指出社会保险基金先行支付在司
学位
在刚刚过去的2020年,新冠病毒正大规模在各个地方爆发。这场由新型冠状病毒肺炎所引起的突发公共卫生事件,来势凶猛,仅在几天的时间中就造成了我国众多人员感染病毒的情况,对我国应对突发公共卫生事件的能力提出了巨大的挑战。在疫情防控期间,大量的个人信息被收集利用,除了传统的人工对个人信息进行收集外,我国还充分利用了大数据信息技术对重点人群的行踪轨迹进行追踪定位,对个人信息的收集利用成了疫情防控中的重点工
学位