面向药品说明书的知识图谱构建及检索系统的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:snower2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国社会和经济的快速稳定发展,人民的生活水平和受教育程度普遍提高,越来越多的人开始意识到健康的重要性,获得安全用药知识和用药指导已成为更多人的需求。药物治疗是最常用、最方便的治疗手段,人们往往根据自己的经验和说明书内容来选择药品,并没有完全了解和掌握各个药品的具体情况,造成不合理用药。药品说明书是载明药品信息的重要载体,是医生和病人如何用药的科学依据和指南,但市面上药品种类繁多、现代医药知识爆炸式增长,超出了医师自身可以掌握的能力。而目前现有公开的医学网站上的药品说明书都是以半结构化或无结构的自由文本或者自然语言的描述形式呈现的,其格式不一、种类繁多,并且多数网站只包含药品自身的内容,缺乏药品与药品之间的关联信息。因此,设计并实现一个面向药品说明书的知识图谱构建及检索系统,对降低不合理用药,缓解医生压力,降低医疗成本具有重要意义。本论文主要介绍了面向药品说明书的知识图谱构建与检索系统的设计与实现。本文的工作主要包括四个部分。第一部分主要是对数据进行采集和处理,该部分基于Scrapy爬虫框架爬取公开的医学类网站中的信息,通过XPath和正则表达式解析网页内容得到药品说明书,然后对采集到的数据进行解析、去重等操作,将不同网站的数据整合统一表示,存储到csv文件中。第二部分是命名实体识别,该部分首先根据说明书内容设计所需抽取的实体类型,人工标注数据,然后基于部分标注数据,采用BERT-CRF模型进行训练,再使用训练好的模型对未标注的药品说明书数据进行实体识别。第三部分是知识图谱的构建,该部分首先对抽取出的实体进行合并、去重等处理,得到药品、药品成分、主治功能等实体集合,然后构建以药品名称作为头实体,其他实体作为尾实体,尾实体对应的实体类型作为关系的三元组,再导入到非关系型数据库Neo4j中进行存储。第四部分是信息检索和可视化展示,该部分使用Cypher查询语言和语义相似度匹配算法实现查询功能,并将查询结果以知识图谱和关系列表的形式进行展示,用户可以检索药品等实体得到所有与之相关信息,也可以进行特定关系的查询,用户可以通过可视化展示进一步发现和探索药品与药品之间的关系。本系统基于Python开发语言进行开发,以B/S架构为背景,使用MVC开发框架,采用Neo4j非关系型图数据库存储数据,利用HTML5、CSS、Cypher、ECharts、Flask等技术实现系统的功能,将药品说明书的内容以更直观、简洁的方式展示给用户,动态的展示知识之间的关系,实现药品信息的检索。
其他文献
谐波源的产生往往是系统侧与用户侧共同作用的结果,进行谐波源辨识研究有利于协调供用电双方的矛盾。倘若可以对电能质量的责任进行清晰明了的划分,用户与供电公司之间由于电能质量引起的矛盾即可得到妥善解决,进而促使电能企业的提高服务水平,电力用户的电能质量也会得到改善。本文首先介绍了谐波责任划分的指标,理论分析了基于功率流的谐波源识别技术,并结合仿真分析,比较了不同辨识方法的优缺点及适用范围。然后从定性和定
学位
随着化石能源的消耗所带来的环境污染问题日益严重,新能源汽车越来越受到人们的重视。作为新能源汽车之一的氢燃料电池汽车具有使用过程零排放、能量转换效率高和噪声低等特点,有较广阔的发展前景。氢气循环泵是车用氢燃料电池系统中的重要部件之一,围绕氢气循环泵驱动电机的控制技术开展研究具有重要的理论意义和实用价值。本文基于某氢燃料电池氢气循环泵电机驱动系统开发项目,完成了以下主要工作:介绍了目前国内外无刷直流电
学位
恢复原状作为大陆法系中的一个非常重要的概念,我国《民法典》第179条、第237条、第566条、第715条均对其有所规定,将恢复原状列为了十一种民事责任承担方式之一。其具有对受损权利人的利益进行弥补的功能性内涵。但是由于“恢复原状”一词其语义特殊,具备了充分的包容性与多样性,导致各国法律对于恢复原状的理解与适用均各不相同,也就使得恢复原状这一民事责任承担方式在各国民事责任体系中的地位也各不相同,尤其
学位
背景及目的β受体激动剂是一类苯乙醇胺类化合物,广泛应用于呼吸系统疾病的治疗。它们最初在临床被作为生育力抑制剂、支气管扩张剂和心脏补充剂使用。也有研究表明,长期使用β受体激动剂治疗的阻塞性气道疾病患者会增加心血管不良反应的发生风险。由于β受体激动剂能有效提高饲养动物的生长速度和降低酮体脂肪,因此经常被非法添加至动物饲料中,继而在肉类中造成β受体激动剂的残留。食用被β受体激动剂污染的食物可能导致严重的
学位
本翻译实践报告的目标文本为韩国轻小说作家张康明所著社会问题小说《漂白》。作者将生活在这个框架既定、阶级固化到几乎已经无法动弹的当今世界中拼死挣扎的年轻一代称作“漂白一代”,其行为特征之一表现为群体或个体的自杀倾向,并以此作为反抗社会、显示自我生命价值的一种非正常手段。小说深刻地揭示出当代年轻人真实的生存现状以及踌躇满志却局限于时代和社会的束缚而无法施展自身才能的矛盾心理。本翻译实践报告共分为五章。
学位
研究背景《医学统计学》是高等医学教育课程体系中重要的基础课程,但其概念抽象、公式繁杂而使医学生觉得难以理解和掌握,甚至对统计学课程心存畏惧。近年来,国内众多院校在统计学教学内容、教学方法等外因方面进行了很多积极的探索和研究。但是以医学生为研究主体,进行统计学态度和统计学自我效能等影响统计学教学效果内因方面的研究却未得到足够重视。国外研究表明,学生对统计学的态度和自我效能可以直接影响到他们的学习兴趣
学位
区域供热是当前中国北方主要的供热方式,在冬季供热能耗所占比重很大,而区域供热系统由于覆盖范围较广,其控制调节有一定的滞后性,而区域供热系统不合理的运行方式导致能源浪费等问题的出现。因此,准确预测区域供热系统的用户热负荷和精准调控其运行参数对整个供热系统的节能减排和优化升级起着至关重要的作用。本文选用某能源公司以燃气锅炉作为热源的三个区域供热系统作为研究对象,为用户热负荷预测及运行参数优化提供了可靠
学位
近年来,随着我国高速铁路的快速发展,人们对旅客列车准时准点的要求也在不断提高。当线路发生故障时,能够迅速、准确地查找故障位置,排除故障险情,对保证列车通行的准点率,尤为重要。目前,高速铁路牵引供电系统测距装置的测距方法有:阻抗法、吸上电流法、上下行电流比法、吸馈电流比法等。石济客专以吸上电流法为主。铁路牵引供电系统一条供电臂平均输电距离为30km,而现阶段所使用的故障测距误差范围只能达到±500m
学位
随着经济的快速发展和科技的进步,电力系统的信息化基础建设水平也在不断提升,传统的人工巡检的方式已经远远不能满足电网智能化管理水平要求,开展基于人工智能技术的输变电场景巡检具有重要的现实意义。图像描述生成技术是计算机技术领域的研究热点,输电线路、建筑工地等场景环境多变,存在很多危险因素,通过研究图像描述技术进行输变电场景的危险描述以达到预警的目的,为保障电网稳定运行提供有力的技术支撑。本文提出了一种
学位
水下无线传感器网络是打开海底世界的钥匙,在海洋污染监测、资源勘测、海底地质灾害预防和国防领域得到广泛应用。它由一组具有声波发射器的传感器节点组成,数据包以多跳的方式从海底转发到水面的船只或者中转站。路由协议决定着数据包的转发行为,是水下网络的核心。水下网络中的节点通常使用能量有限的蓄电池供能,因此如何提高水下网络的能量利用率、延长网络生存时间是设计路由协议时必须考虑的一个关键问题。经典的水下路由协
学位