基于自然语言处理的医疗数据标签化技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:qqliser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化建设的迅速发展,数据为王的大数据智能时代为各行各业带来了新的机遇和挑战。近年来,医疗大数据作为新的焦点领域,得到了各界的广泛关注。如今,每天到医院进行就诊的患者不计其数,在就诊中便产生了数以百计的医疗数据。病人的医疗记录是医生通过信息系统手动录入的,而其中的内容则大多是非结构化数据。以这种医生较为熟悉的方式来描述诊断与检查结果,能够让医生在信息录入时更加迅速、准确、方便。所以目前的医疗数据文档,尤其是症状描述部分,大多是以医生的口头语言进行描述的非结构化数据。因此,这些数据存在异构、分布式、碎片化、不规范等特点,有时还会存在数据缺失的现象,不利于解读和处理。由于医疗数据是以非结构化的形式存储的,因此无法直接通过计算机直接处理和分析,不仅效率低下,分析质量也无法保证。目前的信息抽取研究中使用的方法的可扩展性都较差,具有一些局限性,故自动化程度不高。为了能够有效地通过现有的分析方法对医学病案数据进行分析和信息挖掘,从而更好地利用医学病案数据,如何有效地将医学数据作结构化处理就成为了一个值得研究、探索的问题。在此情况下,基于相似病案的检索系统项目应运而生。项目旨在建立一个通用、准确、便捷、易操作、高效且能够处理异构医疗数据的病案检索系统。系统在由各病案组成的医疗数据平台上,通过病情查找相似病案,用一个病案整体作为输入,相似病案做出输出进行辅助诊断。而本文的工作,则是病案检索系统中的数据处理阶段。本文创新点在于改进已有的自然语言处理中的歧义切分校正方法,将算法对医学领域进行优化;再结合LOINC数据库与知识图谱等相关工具与技术,将病案中的医疗数据进行处理,为项目的下一步工作提供数据支持。本文首先通过改进后的术语抽取算法,对数据中非结构化的医学命名实体进行识别;然后通过语义分析进行标签提取与向量构建,并参考LOINC数据库,将非结构化的数据结构化,让数据中的描述更为准确、统一;然后通过相关性分析,对标签进行筛选与量化操作;最后通过结合知识图谱,构建出可视化的病人病例画像,通过内容分析、可视化的方式显示知识结构以及其相互关系,一定程度上解决数据缺失的问题。
其他文献
近年来,国际贸易快速发展,航运业运输量越来越大,随着公众对于海洋环境的逐步重视及航运企业竞争的加剧,对船舶航行的安全性及经济性要求也越来越高。限航区是船舶航行过程中
采用有限元仿真计算的方法对高导电阴极钢棒结构240kA铝电解槽进行了电热场计算。分析高导电阴极钢棒对铝液水平、槽电压以及电解槽温度分布的影响。结果表明,阴极压降可以有
隔膜计量泵是一种特殊的容积泵,能够满足各种工艺流程的严格要求,在精确计量输送场合应用较多,构成部分包括电机、传动箱和缸体等。在隔膜计量泵长时间使用期间,将出现很多细
<正>近年来电子坐便器质量安全问题备受行业和消费者的关注,已被列入2016年10类消费品质量提升计划中。通过近两年来不同类型的监督抽查发现,电子坐便器质量问题突出,其中以
城市的迅速发展对中国经济产生巨大影响的同时,也成为商品住宅价格上涨的助推器。基于城市发展视角,运用结构方程(SEM)模型,结合国内外学者的研究进展,提出了采用7类潜变量共
在推进城市化进程中,农村普遍存在“空心村”现象。“空心村”的形成,不仅浪费了有限的土地资源,而且还会给社会增添不安定因素。因此,松阳县立足本县实际,提出了“改造空心
特色党支部创建是加强支部自身建设和促进中心工作的有效载体。通过理顺创建思路,明确创建目标;找准创建切入点,明确创建举措;督导创建实施,强化创建考核等措施,基层班子和队
本文从创设宽松的学校语文课堂教学环境,进行语文课堂教学提问,真实生活教学体验与实践,培养学生的发散性思维等方面,分析和探讨了教师在学校语文课堂教学过程中如何促进语文课堂
农村劳动力转移培训“阳光工程”是一项便民、富民的大事,是实现农业产业结构调整、发展农村经济、促进农民增收、提高农民就业能力的重要途径,是解决“三农”问题的关键举措,也
采用二段萃取法从粗钪中分离提取氧化钪,当一段TBP萃取体系中羧酸盐型表面活性剂用量与氧化钪用量比为0.1∶1时,抑制稀土、钍、锆等杂质被萃取的效果显著。在二段TBP萃取体系