基于主动学习的中文医学实体识别研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dillydally
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历是医疗活动的详细记录,包含大量珍贵的临床医学知识。中文医学实体识别能够抽取出电子病历中的医学信息,为医疗质量管理、智慧医疗等研究奠定基础。传统的监督学习方法往往依赖于较大的训练数据量,但构建大规模中文电子病历语料库的成本较高。因此,本文利用主动学习开展中文医学实体识别的研究,可以在一定程度上解决训练数据不足的问题。本文研究主要包括以下三个方面:(1)基于条件随机场的中文医学实体识别算法研究。本文分析了电子病历文本的语言特点,在特征提取部分对条件随机场(Conditional Random Fields,CRF)算法进行了优化,除了常规的上下文特征和字符特征,模型还提取了文本的词尾特征。本文参考I2B2(Informatics for Integrating Biology and the Bedside)2010标注规范制定了中文电子病历标注规范,构建了一个包含300份电子病历的小规模语料库。采用自建语料库对模型进行训练,结果证明,经过改进的CRF算法F1值达到了0.933,比未改进的CRF算法高0.6%;而与其他经典算法(隐马尔科夫模型、双向长短时记忆模型)相比,改进的CRF算法F1值要高出10%以上,证明本文提出的CRF优化算法具有更好的识别效果。(2)基于主动学习的中文医学实体识别算法研究。主动学习通过迭代式的训练,有针对性地选择训练样本,以提高模型的识别效果。本文采用基于池的采样构建主动学习问询场景,并根据电子病历的文本特点提出了一种基于不确定性的采样策略。使用较小的数据集训练模型,结果显示,基于主动学习的实体识别模型F1值比随机采样模型高出3%。证明主动学习模型能够在训练数据有限的情况下,有效提高模型的识别效果。(3)中文电子病历管理分析系统的设计与实现。该系统除了具有存储和管理等基本功能外,还提供了结构化展示和在线标注的功能。不仅能够满足科研人员对电子病历进行数据分析的需求,还为标注语料库的构建提供了方便。
其他文献
语言是人类用来交流思想、相互传递信息的常用工具。在护理工作中,语言是沟通护患关系的桥梁,有效的沟通主要是建立在护士对患者真诚和蔼的态度和彼此能懂的言语上。在实际的临
当今,现代化的高速列车正负载着我们这个古老的文明颠簸跌宕地向前疾驶,当下中国的现实已非百年前,甚至二十年前可比。而这样一种现实情势,无疑已明显地带来了两种不足:一是我们的
阐述了提升机滑绳危害及滑绳原因,分析了摩擦提升中钢丝绳滑动时绳静、动张力的关系,通过理论分析,提出了满足系统安全可靠制动的外力制动方式。此方式不仅可以防止滑绳事故,
随着汽车工业的飞速发展,其舒适性、安全性、排放等问题得到了较大程度的改善,但车内噪声和振动(NVH)问题日益突显出来。发动机和路面的激励会经过底盘各个部件的隔振元件传
在乙胺和水混合蒸汽相中,首次通过载体自转晶,在多孔玻璃片表面原位合成了B-Al-MFI型沸石膜.FEAM分析表明,沸石膜的化学组成为w(B2O3)=3.7%,w(Al2O3)=0.55%,w(SiO2)=95.25%,w(Na2
本文从贯彻中共中央宣传部、教育部《关于进一步加强和改进高等学校思想政治理论课的意见》及其实施方案入手,设计了以教学、心理、身体、审美、师德、法律、创新、政治等八个
随着我国社会主义市场经济的不断发展和医疗卫生体制改革的不断深化,医疗竞争日益激烈。而优抚医院作为全额拨款的事业单位,长期以来因为身份的特殊而造成的优越感早已淹没在市
提出了一种基于实测伏安特性确定多晶硅电阻中晶粒数及晶粒平均长度的方法。用该法得出的结果同透射电子显微镜的实测统计结果符合较好,平均偏差小于15%,给出了基于多晶硅电阻电流
目的:探讨住院精神疾病患者发生医疗纠纷的原因及防范对策。方法:对我院2003年1月-2010年1月发生的8例医疗纠纷案例进行回顾性分析总结。结果:产生纠纷的原因:猝死5例,出走后走失1
根据矿区地层、岩性、含水空隙特征及埋藏条件,分析了影响矿井煤层开采的主要水害因素。结合对矿井历年突水水害状况的分析,采取了有针对性的综合水害治理措施,有效解决了矿