基于深度学习的出生缺陷关系抽取及知识图谱的构建

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:coffeedoly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
出生缺陷是指胎儿在形成发育时期形成的机体结构、代谢或功能异常等,它严重影响着出生人口质量和儿童的生命健康,使得患儿的生活质量得不到保障。此外,它还给患者家庭带来了沉重的精神和经济压力。目前国内关于出生缺陷的相关统计信息较少,缺乏对出生缺陷疾病相关信息系统性地整合,这对出生缺陷的防预和治疗非常不利。针对这个问题,本研究基于共现的方法,从PubMed历年文献中筛选出生缺陷与表型/症状、基因、致畸物/药物等共同出现的句子。首先,本文对这些句子进行了假阳性处理,根据远程监督的思想,利用UMLS定义的关系,人工给句子中两个实体标注关系,从而建立起出生缺陷相关的语料库。然后,利用人工标注好的语料库训练了三种不同的深度学习关系抽取模型,分别为Bi-LSTM+Attention、PCNN+Attention和BERT+Softmax模型。本文依据这三种模型的预测结果,采用多数表决和高置信度的方法,生成最终的关系抽取预测模型以得到<实体,关系,实体>三元组。接下来将三元组相关信息存储在图数据库Neo4j中,构建了出生缺陷领域的知识图谱。最后,利用训练好的预测模型对新句子进行预测从而推断出句子中实体之间的关系,并将新得到的三元组添加到知识图谱中。另外,在模型训练开始前,本文还利用Word2vec算法训练了生物医学领域的词向量,其可以直接用于后续的各种生物医学领域的自然语言处理任务。本文还构建了知识图谱自动更新系统,系统能够定期自动地从PubMed上爬取最新的文献数据并存储在本地服务器上,利用训练好的关系抽取模型从这些医学文本数据中获取关系三元组,并存储至本地Neo4j图数据库中进行可视化处理。出生缺陷知识图谱提供了基于Cypher语言的查询功能,可以进行实体和关系查询,并将结果以图形化方式展现给用户。该研究结果一定程度上为学者和医生等的研究工作提供了便利,对出生缺陷的防预和治疗也起到了积极的作用。
其他文献
知识产权服务业是提供专利、商标、版权、地理标志、植物新品种等各类知识产权"获权—用权—维权"相关服务,促进智力成果权利化、商用化、产业化的新兴产业,是现代服务业的重要
船舶信息查询对于整个航运产业链发挥着至关重要的作用,也是许多船舶服务平台的基础功能。然而,传统的船舶信息查询往往只是机械地比对查询词和数据库数据之间的匹配关系,将
作为全球最受欢迎饮品——茶叶的故乡,中国完全有理由感到自豪。在世界最大产茶国及消费国的头衔旁落100年后,中国最近从印度手中夺回了这一历史地位。
立式推力滑动轴承系统是旋转机械设备最为关键部件之一,是机组正常发电和安全运行的重要保障。立式推力滑动轴承一般采用浸油自润滑方式,通过油-水冷却器带走热量,达到热平衡
日前,浙江省嘉兴市南湖区出台了《南湖区专利专项补助实施办法(试行)》。为规范专利补助机制,有效防止恶意套取专利补助资金的现象.实施细则完善了专利申请补助程序,该办法新增加了
与传统的信息管理手段相比,知识图谱以其强大的语义处理与开放互联能力,可帮助人们迅速梳理目标知识之间的逻辑关系,对基于知识的智能推理实现有良好效果。与通用知识图谱相
目前.已正式上线运行的中国专利电子审批系统(下称E系统)运行稳定.专利审查工作开展得有条不紊。E系统的正式上线.实现了专利审查业务工作模式的全新变革,专利审查员从此告别了使用
随着我国经济的不断发展深入,农村城镇化的进程步伐明显加快,以及企事业单位的后勤服务外包需求不断增多。人们对工作环境、配套设施及服务的质量要求在不断攀升,这为物业服
随着社会的进步,汽车已经成为人们重要的出行方式,然而其在给人们带来便利的同时,随之引发了一系列的交通问题,因此,为了保证安全,减少交通事故的发生,车辆行驶过程需要先进辅助驾驶技术给驾驶员提供帮助。目前,较多的事故都是由于司机无法及时掌握车身外界环境而导致的,现有的环境传感器中激光雷达因为价格高昂难以普及、毫米波雷达受到波长的限制,导致难以测量出环境中距离较远的障碍物,对目标的探测精度较低且无法识别
作为2012年伦敦奥运会中国代表团的主要赞助商之一,李宁公司负责为中国体操队、射击队、跳水队、乒乓球队和羽毛球队这5支关注度极高的"梦之队"提供装备。在李宁品牌装备的辅助