基于Spark的实时医疗数据挖掘系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zuomingyu6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在医疗健康领域,专业的病理知识和患者的就医诊疗记录大多保存在非结构化的文本中,其数据格式不一、结构多变、表达形式多重。知识图谱作为一种有向属性图,以三元组的形式保存两个实体之间的关系,其能够将知识表示成更容易被计算机识别和处理的形式,越来越多地出现在推荐系统、问答系统、电子商务、医疗辅助等各大应用中。将知识图谱技术和健康医疗相结合具有广阔的研究前景,目前开放知识图谱大都是规模巨大的百科式知识库,比如百度百科、维基百科等,中文领域十分缺乏高质量的面向健康医疗领域的知识图谱。针对以上问题,本文首先使用爬虫技术从在线问诊平台中爬取海量健康医疗知识语料集,利用深度学习技术训练模型实现医疗知识的提取,核心任务包括命名实体识别、关系抽取、知识融合等。将获取的医疗知识以三元组的形式保存进图关系数据库Neo4j中,实现从无到有地构建起一个完整的医疗知识图谱。最后在以上工作的基础上,借助Spark大数据处理框架高吞吐、低延迟的特性,设计并开发出一个基于知识图谱的实时医疗问答系统,实现对输入系统中的医疗相关问题快速做出回答,并且具有较高的准确率。本论文具体完成以下工作:(1)设计并开发网络爬虫系统。借助Scrapy爬虫框架实现从微医网、好大夫在线、寻医问药网等在线医疗平台抓取常见疾病及其症状简介数据、临床药物数据、病人问诊时医患对话数据等;接着首先对爬取到的原始数据进行清洗,主要包括删除空白数据和冗余数据;然后使用Han LP分词工具对文本数据进行中文分词、去除停用词,最后使用Word2Vec构建词向量。(2)训练BiLSTM-CRF模型实现命名实体识别。本文中需要识别的实体主要包括治疗方式、身体部位、疾病症状、医学检查、疾病名称等五大类医学实体,将识别出的实体使用BIO的标注方式进行标注,实验结果表明该算法具有不错的准确度。(3)抽取出实体间的关系。采用BiLSTM-ATT模型对已识别出的五大类实体之间的关系进行抽取,获取知识,具体包括某一疾病实体所表现出的症状信息、某一疾病的发病部位、针对某一疾病采取的医学检查方式和治疗方式等十种不同类别的关系。(4)将已获取的知识进行整合、消岐、再加工,把融合后的医疗知识保存进Neo4j数据库中,完成面向医疗健康领域知识图谱的构建。该图谱中共包含各类医疗实体4.4万余个,实体间关系近30万条。最后在此系统的基础上,使用Spark框架搭建出一个简单的实时在线医疗问答系统。
其他文献
风积土广泛分布于辽宁西部,该地区常对风积土进行适当的改良,使其能够成为一种优良的路基填料。本文以水泥改良风积土作为研究对象,进行了相关的动、静三轴试验、水稳定性试验、配合比试验等室内试验,利用Midas GTS NX进行了相关模拟研究,主要研究成果如下:(1)对取回的风积土进行了筛分,并进行了不同水泥含量下的击实试验,得到了水泥改良风积土的最优含水率。按最优含水率和不同水泥含量制备成标准试件后,常
目的利用动物感染细粒棘球蚴,通过ELISA及流式细胞术检测细粒棘球蚴病感染小鼠体内的免疫记忆性的动态变化,评价整个感染以及再次感染过程中的免疫记忆性,为该人畜共患寄生虫病的防治包括新型诊断试剂的开发以及寻找新的治疗策略提供研究基础并开辟新的途径。方法采用随机数字表法,将小鼠随机分为3组:二次感染组、感染组和阴性对照组,每组各36只。阴性对照组小鼠不做处理,二次感染组及感染组的小鼠每只腹腔内注射新鲜
变电站是电力系统的重要组成部分,变电站选址定容是指根据规划区域的目标年负荷预测结果,确定满足要求的变电站站址、站容以及供电范围。变电站站址、站容的选择对配电网有很大影响。科学、合理的变电站选址定容方案不仅能够保证对负荷的可靠供电,还能减少成本,具有重要的经济意义。本论文提出了一种变电站选址定容方法,将变电站选址定容问题分为规划区域内变电站供电范围划分问题与供电范围内变电站选址定容问题。首先研究了规
随着A油田水驱开发进入中后期,部分区块已进入中高含水期,注入水低效或无效循环现象日趋严重,“控水稳油”难度日益增大。虽然目前A油田已开展了水井调剖措施,一定程度上减缓
支撑剂是油气井压裂作业的关键材料,支撑剂密度越高,对压裂液悬砂性能要求越高,运移输送越困难,低密度支撑剂一直以来都是行业内高度重视的研究内容。论文研究一种超轻密度支
安徽省气候温暖湿润,水体众多,且具有丰富的水生植被物种。其中武昌湖、升金湖、金保圩、燕窝圩、武昌湖水生植被恢复示范工程区、人工养鱼塘为安徽地带地理位置接近,但营养盐浓度,水生植被覆盖度明显不同的湖泊和池塘。本文根据四种典型生境水体面积及形态,以及不同的营养盐浓度,水生植被生境参数,将上述水体划分为开阔水域生境(武昌湖、升金湖),沉水植被生境(金保圩),挺水植被生境(燕窝圩),鱼塘生境(人工养鱼塘)
支撑我国今后长期发展的重要战略布局是科技创新。中国从要素驱动到创新驱动的增长动力转换中,高技术产业扮演着一个核心先导部门的角色。从自主研发到形成自主知识产权,伴随着产业的转型升级。在核心尖端技术的垄断性和限制性都加强的今天,高技术企业的模仿创新空间减少,中国技术的后发崛起面临着巨大的挑战。中国经济发展很大程度上依靠技术进步,保护知识产权通过界定产权来保护创新成果不被模仿,进而调动企业自主创新的积极
油菜是我国第一大油料作物,约占我国自产食用植物油的50%以上。油酸(C18:1)是构成菜籽油的主要成分,其含量决定菜籽油的营养品质和经济价值。高油酸菜籽油具有较高的营养特性、食用品质及存储加工品质,在日常饮食、工业加工和医药领域都发挥重要作用,培育高油酸油菜已成为品质育种的重要目标之一。本研究以甘蓝型油菜自交系J-4008和L3为高油酸供体亲本,以甘蓝型油菜自交系6105R、ZY28和GCZS11
在一种新的治疗方案被研发出来之后,通常使用随机对照临床实验(randomized controlled trials,RCTs)来对新方案和原有治疗方案进行比较研究,从而确定新方案的治疗效果是否优于原方案。但在实际的临床实验中会出现部分病人对原治疗方案不敏感导致病情恶化,或者出现了严重的副作用,那么基于人道的考虑,实验管理者通常允许病人由一种治疗方案转换到另外一种治疗方案,这种情况被称为病人换组(
目的通过比较糖尿病性白内障和或合并干眼症患者超声乳化吸除术前加用玻璃酸钠滴眼液的治疗组和对照组1月内各项干眼症的相关检查结果,了解玻璃酸钠滴眼液预防、治疗合并糖尿病性白内障术后干眼症的临床疗效,为系统合理地治疗糖尿病性白内障术后干眼症提供参考依据。方法将2019年1月至2019年12月收治于大连医科大学附属第一医院三部眼科的96例老年性糖尿病白内障患者作为研究对象。其中术前诊断为干眼的患者共42例