中医临床病历表型概念谱抽取方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:chd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
临床病历是在医疗活动中产生的文本信息,是对患者疾病的发生、发展、检查、诊断、治疗等医疗活动的记录,通常由医务人员撰写。临床病历中蕴含着丰富的信息,对这些信息的挖掘为各类临床研究提供了重要的资料。表型谱是病历中提及的患者的表现特征。对临床病历表型谱信息的抽取通常使用命名实体识别方法,但由于表型概念边界模糊、表型谱实体提及不规范的原因,表型谱抽取的结果难以直接应用于各类下游任务。表型概念谱是概念化的表型谱,对临床病历的表型概念谱的抽取将从病历文本中直接识别对应于预定义的概念集的表型谱。本文进行了中医临床病历文本表型概念谱的抽取方法研究。首先研发了对病历文本表型谱进行高效标注的“人机协同表型谱标注系统”,之后提出了一种可用于标注系统样本推荐的基于主动学习的命名实体识别方法,最后提出了两种表型概念谱的自动抽取方法。具体研究工作由以下三部分构成:(1)人机协同表型谱标注系统研发了用于对临床病历文本进行快速结构化处理的“人机协同表型谱标注系统”。标注系统采用人工标注与自动化标注协同的方法,优先推荐标注价值更高的样本进行人工标注并对易于识别的实体进行自动标注,从而降低冗余的人工标注工作量。本文提出了人机协同表型谱标注系统的设计与部分研发工作。(2)基于不确定度的主动学习命名实体识别方法提出了可用于人机协同表型谱标注系统的基于主动学习的命名实体识别方法,并提出了一种改进的基于不确定度的查询策略。本文通过实验测试了实体识别性能以及样本推荐策略的性能,并对几种已有的查询策略进行性能对比实验。实验表明,使用基于不确定度的主动学习命名实体识别模型只需要大概35%的标注数据量,即可达到最佳性能的99%。而随机策略在使用同样数量的标注数据时,只能达到88%。(3)表型概念谱抽取方法针对临床病历的表型概念谱抽取提出了两种方法。1)基于实体识别+概念映射的表型概念谱抽取方法。使用实体识别+概念映射的流水线方法。首先使用基于BERT+CRF的命名实体识别模型对病历文本进行表型谱抽取,然后基于人工标注的规则,将表型谱映射到预先定义好的概念集中。对表型谱抽取模型性能进行了验证,在CCKS2019中文电子病历医疗实体识别标准数据集上的Mi F值达到0.8309。2)基于文本分类的表型概念谱抽取方法。将表型概念谱抽取视作多标签文本分类问题,构建了融合文档密集语义表示的Doc2Vec向量与稀疏特征表示的TFIDF向量的复合文档级特征D2V-TFIDF。基于病历样本的D2V-TFIDF特征进行基于SVM的One Vs Rest多标签分类。实验表明,基于D2V-TFIDF特征的多标签文本分类方法在中文临床病历文本上的Mi F值达到0.63,高于单独使用D2V特征(0.18)与TFIDF特征(0.61)的分类性能。
其他文献
伴随着科技的不断进步,通信技术的飞速演进,信息时代正在时刻向前迈进。人们不再只满足于在人和人之间进行通信,希望能够在人和物,物和物之间进行互联。物联网通过各类传感器将不同地点和不同系统中的数据进行传输共享,实现物物相连。但是目前由于彼此设备间协议或者架构的不同,物联网设备无法直接做到兼容地通信,并且因为物联网环境下设备性能的限制以及其本身与人们生活的高度相关性,它对传统通信方式中的加密算法有着更低
2019年以来,金融监管不断趋严趋紧,商业银行追求利润的连续增长下,采取加大信贷投放规模而引发的风险逐渐暴露。我国银行业处在利率市场化之中,在金融体系下银行同业间的竞争愈发激烈,且近年来利差收窄,利率一降再降,银行受到了国家经济下行和流动性紧张的双重压力影响,导致盈利利润不断紧缩,信贷资产质量难以保持平稳,正面临着市场违约现象不断显现的严峻形势。对公客户一直作为银行盈利的主要营销对象,要想保障商业
碳纤维增强树脂基复合材料(CFRP)以其比强度大,可设计性强,优良的抗冲击性和耐腐蚀性等特点,成为了颇受青睐的轻量化材料。在CFRP的应用中,材料切割是非常重要的一个环节,切割质量直接决定了CFRP零部件的装配精度和服役性能。激光切割CFRP能克服传统机械切割中刀具磨损大、材料分层严重、边缘毛刺多等缺陷,在加工成本,加工效率,加工质量上具有明显的优势。但是在激光切割中,由于激光束能量高以及CFRP
煤炭是我国能源结构中的主要组成部分,也是化工生产中所必需的工业原料。2015年的政府工作报告指出煤炭的清洁高效利用亟待加强。随着采煤机械的自动化程度越来越高和开采深度的越来越深,这导致了粗煤泥的含量不断提高,粗煤泥的有效分选和利用变的越来越重要。本文针对目前在选煤厂应用的智能粗煤泥分选机所暴露出的一些问题,提出从理论基础入手,研究智能粗煤泥分选机内颗粒运动特性和流场分析,基于计算流体动力学和二次回
去年春天,习近平总书记考察浙江时赋予我省“努力成为新时代全面展示中国特色社会主义制度优越性的重要窗口”的新目标新定位。高质量发展建设共同富裕示范区是习近平总书记亲自谋划、亲自定题、亲自部署、亲自推动的重大战略决策,是我们忠实践行“八八战略”、奋力打造“重要窗口”的核心任务,是扛起“五大历史使命”的总牵引。
如今,电气火灾已然成为引发火灾事故的首要原因,其中故障电弧是引起电气火灾的主要原因之一。目前配电线路故障保护装置无法对电弧故障提供全面保护,故障电弧已经成为用电保护的漏洞,对于故障电弧检测技术的研究有重要的理论意义和工程价值。本文以低压串联故障电弧为研究对象,针对其诊断技术进行了研究,主要工作如下:首先,介绍了电弧的基本概念、故障电弧的产生原因以及本文涉及到的串联故障电弧的基本特性。其中,电弧的基
以太阳能作为驱动力,利用半导体光催化剂来降解污染物是解决日益严重的世界能源危机和环境问题的理想方法。二氧化钛(TiO2)因为拥有优异光电化学性能和稳定性,所以在光电催化,
江海直达船是一种新型船舶,它兴起于上世纪90年代。主要特点有:运营成本低,货物损耗少,货物周转时间短。基于以上几点,江海直达船可以有效弥补我国江海货物运输的不足,符合现代物流的发展趋势。内河船舶大型化是我国内河船舶的发展趋势,江海直达船作为典型的内河船舶之一,是我国近几年重点发展的新船型,其大型化趋势会导致在内河浅航道中航行时发生浅水效应,影响它的阻力和推进性能。近年来,数值计算在研究船舶浅水效应
光驱动的化学反应,特别是光催化过程,涉及当前化学科学各研究领域,既有重要的基础研究意义,又有极大的应用潜力。例如,自然界中的光合作用利用太阳光驱动二氧化碳和水生成糖
疲劳失效是船舶与海洋工程结构物在其服役期间所面临的最严峻问题之一,准确的评估结构物的疲劳寿命是保障作业人员及财产安全必不可少的环节。相较于当前工程中广泛使用的基于Miner累积损伤准则的S-N曲线法,基于断裂力学的疲劳寿命评估方法可以考虑各种变幅载荷作用引起的包括过载迟滞、过载间距和载荷次序等因素影响,从而提供了一种更为精确的结构寿命评估手段。然而,针对海洋工程钢在变幅载荷作用下的裂纹扩展研究仍然