基于文本分类和匹配的医学概念自动编码

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liyyng1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学概念编码是给临床医疗文本中的医学相关概念分配标准医学术语对应的编码。由于编码量大以及人工编码成本高效率低等原因,实现医学概念自动编码具有重要的研究意义和应用价值,因此本文开展了基于深度学习的医学概念自动编码方法的研究。目前基于深度学习的医学概念自动编码方法主要分为以下两类:一类是基于文本分类的医学概念自动编码方法,受分类标签空间影响,这类方法对于标准术语词典所含标准医学术语个数敏感;另一类是基于文本匹配的医学概念自动编码方法,这类方法由于使用采样技术,对于标准术语词典所含标准医学术语个数不敏感。在临床医疗文本包含多个医学概念应用场景下,基于文本分类的自动编码方法将医学概念自动编码建模为多标签分类问题,传统方法对于标签间相关性表达能力不足。为了解决这一问题,本文提出了结合序列生成和层级词表的医学概念自动编码方法,该方法将文本分类建模为序列生成问题,并通过知识表示算法Trans E引入标准术语词典中标准医学术语编码之间的层级关系。该方法在中文数据集上F1值达到0.797 2。基于文本匹配的自动编码方法将包含医学概念的临床医疗文本与标准医学术语进行匹配,针对现有文本匹配模型训练参数多、训练难度大等问题,本文提出了一种改进的匹配模型,并与现有模型进行了实验对比。基于文本匹配的自动编码方法将包含医学概念的临床医疗文本与标准医学术语单独匹配,忽略了术语与术语之间的相互影响。针对这一问题,本文提出了基于阅读理解的医学概念自动编码方法。该方法分为召回和选择两个阶段。在召回阶段,该方法为包含医学概念的临床医疗文本采样若干标准医学术语作为候选,针对NCBI数据集设计了一种融合不同粒度编辑距离计算相似度的采样方式。在选择阶段,该方法将自动编码转化为选择题类型的机器阅读理解问题:包含医学概念的临床医疗文本为文章,候选标准医学术语为选项,使用选项交互模块和文章选项交互模块建模术语与术语之间关系,文本与术语之间关系,并利用门控机制融合二者信息。该方法在中文数据集上F1值达到0.819 2,在NCBI数据集上准确率达到0.899 0。
其他文献
考试是一种严格的知识水平鉴定方法。通过考试可以考核学生的学习能力和知识储备。为了保证考试结果的公正、公平性,考场必须要有很强的纪律性和约束性,并且专门设置有主考、巡考等考场工作人员监督考试过程,绝对禁止任何形式的作弊行为,否则作弊考生将要承担法律责任和刑事责任。传统的监考手段主要依靠人力监考,即在每个考场设置相应的考场工作人员进行监考、巡考、处理考场突发情况等事务。大规模的集中考试会消耗考试机构大
随着计算机软件的蓬勃发展,软件漏洞的数量也飞速猛增。漏洞修复成为越来越重要的问题,传统的代码审查对于软件从业人员专业素养要求较高,而且随着软件规模的增大,仅依靠代码审查无法满足漏洞检查的要求;基于规则的漏洞自动化检查技术对代码进行检查需要依靠专家所定义的规则;传统机器学习方法对漏洞进行检查需要人工提取特征;近年来深度学习的发展为漏洞检测提供了新的研究方向。然而现有的研究存在对代码的结构信息利用不全
阀门轴是决定阀门质量和可靠性的关键零件,其加工方面的瓶颈近几年已基本解决,检测方面却形成短板效应:尺寸公差主要靠人工检测,形位公差主要靠设备保证,对于加工后的变形则主要靠零件返修。使用落后的检测方式难以保证航天产品的可靠性,因此研究设计一套专用的阀门轴类零件作用直径自动测量系统是十分有必要的。本文提出了一种轴类零件作用直径自动测量系统的设计方案,设计采用线性CCD对待测轴类零件直径与作用直径进行非
随着互联网时代的到来,信息化已经成为当今社会的趋势。随着计算机技术在工业界、产业界以及人们日常生活中的广泛应用,产生了海量的数据。在海量数据中,往往包含着丰富的信息,有待于发掘和分析,为智能化时代的智慧问答、辅助决策、推荐系统等提供更加有力的支撑手段和理论依据。因此,从海量的数据中提取有效的信息,并归纳总结成能够为各行各业提供帮助的知识,已经成为大数据时代人们的共同目标。在人工智能技术、机器学习技
为了解决司法文书的语法错误纠正及文本质量估计问题,本文通过多种方法及实验研究上述问题的解决方法。通过研究当今研究现状,了解当前领域的常用解决方案,并融合司法文书相关特征,对于司法文书文本纠错问题,提出面向司法文书的基于规则和语言模型的纠错方法以及基于深度模型的纠错方法;对于司法文书文本质量估计问题,提出基于语义理解的文本质量估计方法。通过实验,证明上述方法可以较为有效地对司法文书中的语法错误进行纠
大多常规的行人重识别数据集都是在较短时间跨度内收集的,这期间行人的服饰与外观基本不会发生改变。但在例如商场监控、罪犯追踪等很多现实应用中,同一个人的衣服可能会更换,不同的人也可能穿着相似的衣服,常规的行人重识别方法过于依赖行人的服装信息来进行行人匹配,不适用于这种服装变化场景下的行人重识别任务。本文针对服装变化的行人重识别问题进行探究,基于深度卷积生成式对抗网络提出了一种特征解耦方法,用于分离服装
研究一个组织的架构对于了解该组织的运作方式、定义组织的性质、发现其关键节点、发掘核心部门和锁定重要人物以及判断该组织运行状况、刻画组织全貌等方面都有着重要作用,在情报咨询、商业调查、投资分析、打击非法组织等方面有着广泛的应用。现有的组织架构构建算法多是基于对单一数据源的分析,这种方法的缺陷在于很难刻画出目标组织的架构全貌。针对以上问题,本文提出了课题研究目标,即构建出一个基于多源数据的,包含信息采
近年来智慧教育获得快速发展,使得学习者可以获得丰富的学习资源以及自由的学习时间,也使平台积累了海量的在线教学和学习数据,这些数据进一步被用于优化教学质量,从而受到广泛的关注。然而,当前在线教育平台仍然存在以下问题:(1)在线课程质量良莠不齐,评价标准亟需规范;(2)同类型课程数量众多,使得学习者难以区分不同课程之间的优劣,无法真正为学习者推荐个性化的课程资源。因此,在线教育亟需规范在线课程评价标准
随着人类科技水平与经济快速发展,人类社会城镇化进程逐渐加快,与此同时人类的心脏疾病的发病率也在逐年上升。目前广泛采用的12导联心电图通过采集人体胸前和肢端的心电信号生成心电图,12导联心电设备主要的缺点是覆盖的胸前点位数量少,并且没有背部电位缺少足够的敏感性和特异性,无法准确的描述分析一些复杂的心脏电生理活动。256导联心电采集是一种使用大量电极覆盖患者胸部和背部的采集方法,相比12导联其可以提供
计算机视觉中的深度目标检测技术是一项非常重要的技术,为了准确提取有价值的信息,对视频或图像中的物体进行定位和分类非常重要。然而,存在着一些问题,基于云的深度学习模型运行响应延迟较长,而且由于移动网络的不稳定性和有限的网络带宽,这些都会影响用户体验。同时,由于移动设备资源有限,深度学习模型对设备的算力和存储能力要求很高,不能直接部署在资源有限的移动设备上。因此如何将深度学习任务部署到边缘计算环境中是