中医中文电子病历命名实体语料库构建及研究

来源 :广州中医药大学 | 被引量 : 1次 | 上传用户:bird2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随着多年来国家对医院信息系统的建设,大量的医疗数据被输入、储存以及不断的调用,然而对医疗数据的处理方面依然是短板。以前的研究注重的是数据挖掘与数据分析,对文字本身的处理和分析较少,人工智能的发展正在改变这种现象,这是本研究的主要方向。人工智能的研究主要围绕自然语言处理,自然语言的处理包括分词、词性标注、语义分析等研究方向,本研究基于自然语言处理中的分词、词性标注、命名实体识别等机器学习技术手段,对临床电子病历进行脱敏化处理、标注规范制定、标注语料库的建设、自动标注模型的训练等进行研究,旨在探索自然语言处理技术以及神经网络的前沿算法在中医中文电子病历中的应用效果,为最终的知识图谱的构建乃至智能诊疗的实现储备经验。方法:本课题研究的内容为命名实体识别,其在分类上属于自然语言处理的分词中的一种特殊现象,是一种对某个行业的专有名词先进行手工标注进而结合机器学习算法以达到自动标注目的的研究。本课题的研究方法为在数据准备阶段通过人工方法对病历中的患者个人信息进行脱敏化处理。在标注规范制定阶段参考已发表文献公开的标注规范结合本研究的研究对象,使用课题组开发的标注工具进行试标注,在多次一致性分析后,根据分析结果修改、迭代进而确定标注规范。规范制定好后开始正式的命名实体语料库的构建。语料库构建完成后使用BiLSTM-CRF模型进行模型的训练,最后在对测试集进行测试得出结果。结果:(一)数据准备。通过脱敏化处理,隐去患者的姓名、家庭住址、电话号码等与本研究无关的个人隐私信息,对电子病历中的文本格式进行调整,以适合项目研究,共得到150份数据清洗后的电子病历文本文档。(二)标注规范制定。经过有医学背景的专业人员参考本研究制定的命名实体识别标注规范进行标注,在两次迭代后,一致性评价显示F值大于0.8,最终定稿,制定了适用于本研究中的电子病历命名实体标注的标注规范。(三)标注工具的开发。使用相关编程语言开发标注工具,并成功实现了研究所需要的功能。(四)命名实体标注。参考制定好的标注规范和开发好的标注工具对100份首次病程录进行标注,建立了命名实体标注语料库。(五)模型训练。使用BiLSTM-CRF模型进行模型的训练。(六)测试。应用已训练好的模型对测试数据集进行测试。测试结果F值为78.41%。结论:实验结果表明采集的数据不够全面,无法涵盖临床大部分科室的病历。制定的标注规范符合实验目标。开放的标注工具能够满足实验所需,但仍有改进的空间。在语料库训练后显示语料库准确率良好。对测试集的测试显示训练模型表现良好,但依然可以进一步提高数据准确率。在语料库的构建过程中,标注人员主要是舍友和同学,标注人员在标注过程中存在态度上的不严谨,标注结果存在部分错误之处,虽然一致性评价分析结果显示合格,但是查准率和查全率的数据并没有做到极致。实体预料库的构建是命名实体识别重中之重,想要提高测试数据的准确率,离不开精确的标注好的实体语料库。这也是本文最终的测试集准确率不够高的原因之一。同样的神经网络算法,结合他人的研究,本文使用的模型预测可以达到测试集准确率接近0.9的,所以本研究依然有很大的提高空间。综上所述,本文在中文电子病历命名实体识别的基础上尝试加入了中医类医院电子病历中特有的中医命名实体研究,证明了在同样的技术框架下中医命名实体识别研究依然可以得到良好的实验结果。
其他文献
移动机器人智能化最重要的前提之一是具有自主环境感知和行为决策的能力。本文研究了在室内和室外园区环境中移动机器人场景感知及自主行为决策的问题,具体包括三维环境下的位姿跟踪、状态估计、移动目标跟踪以及路径规划。本文首先对移动机器人进行运动学分析,给出了本文所采用的移动机器人结构和硬件信息,并建立运动学模型和控制模型,对于在状态估计和规划控制中的概率应用,也分别给出了移动机器人的里程计运动模型和速度运动
图像描述任务是融合计算机视觉和自然语言处理和机器学习的综合性问题,是这些年的热点问题与难点问题。虽然近年来研究者在图像描述任务上做了大量的研究工作,推动了该任务的
游泳是鱼类主要的生命活动之一,鱼类在水下活动的活动多种多样,其中主要的活动有索取饵料、洄游繁殖、聚集群游、逃避敌害等,因此对鱼类的深入研究以及对未来的仿生学研究都有着重要的生物学意义。鱼类水下的重复性波动行为往往是通过整个身体来完成,为了使鱼类自身在水下环境中达到高效游动,鱼类往往需要身体的头部、尾部和胸鳍等多个部位的协同,因此,对草鱼幼鱼周身涡量和动力形成过程的研究,将有助于了解鲹科游泳模式的鱼
颅内动脉瘤已经成为全世界各个国家的问题,全球每年发病率约为9.1/10万。各个地区有所不同,其中芬兰和日本属于高患病率地区;各个年龄段亦有差别,据报道,我国35~75岁年龄段成年人的发病率则高达7%。因此研究颅内动脉瘤的形成机制,对于预防颅内动脉瘤的形成和发展具有重要的意义。为了研究血流动力学导致颅内动脉瘤的机理,本文主要进行了以下几个方面的研究工作:(1)设计制造了一种细胞流体力学实验装置,提供
近些年来,大跨度的高墩连续刚构桥梁结构形式被广泛用于山区丘陵地带的高速公路建设,此类桥梁的横截面常采用直腹板单箱单室钝体箱梁。由于高速公路上的桥梁宜设计成上、下行
基金会作为慈善公益组织开展公益活动的典型代表,当基金会不能继续运营且发生终止的原因时,如何保障基金会有序退出市场是我们需要思考的话题。由于基金会长期以来缺乏明确的民事主体地位,导致基金会的清算制度缺乏法律的规范。由此引发了一系列基金会清算人的职权不明,清算程序缺少原则性规定,理事会选任、更换、解任清算组成员权利缺失、清算人法律地位及责任规定不明确、没有监督机制保证清算组依法履行清算义务等一系列的难
伴随可持续发展观念的深入人心,以及乡村振兴战略的实施,农村的绿色发展问题在迎来历史性发展机遇的同时也面临着巨大的挑战。在基层农村,农信社凭借其网点众多、人员众多的优势是目前乡村支农、惠农的主要力量,也是乡村绿色发展振兴的主要资金来源。在我国乡村绿色振兴战略的实施过程中,农信社能否较好地落实绿色信贷政策,对于乡村的绿色振兴意义重大。本文以史密斯政策执行理论为基础,通过查阅资料、实地调研、多层次分析的
电网诊断工作支撑着电网的科学发展。开展电网诊断工作,一方面可以通过数据分析挖掘电网薄弱环节、发现电网运行中具体环节的不足和隐患,从而调整运行模式和监测的重点使电网
随着互联网技术的日趋成熟,短视频开始被人们所接受和喜爱,成为互联网内容生产和内容消费的主要形态之一,社交媒体广告也随之发生了重要变化。在传统广告业发展面临困境、受众注意力稀缺、信息爆炸的今天,信息流广告的出现无疑为广告业的发展带来了新的思路。在众多的社交媒体中,信息流广告作为新兴广告的代表,以极低的干扰性和极强的原生性得以快速发展。笔者通过分析知网相关文献后发现,我国目前对于信息流广告的研究多集中
振镜激光焊接技术已在现代加工技术中成为不可或缺的一部分,当前的振镜激光焊接技术将原始的激光焊接区域变得更加灵活方便和可控化,而在近年来视觉传感装置的普及,视觉系统已在精密激光焊接领域中成为激光加工前视觉定位的不可或缺的重要环节。视觉系统和激光振镜的结合,让振镜激光加工更加精准。振镜激光飞行焊接技术,针对当前的振镜激光技术在一些大批量加工下的加工时间消耗问题,做出的一个以机械手和振镜模块组成的移动激