基于二维卷积的生物知识图谱链接预测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:meisck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物学领域中,常见问题是利用知识网络中已有的信息来预测新的关联,即生物链接预测问题。随着生物学领域的相关研究快速发展,大量的生物学相关信息被发现和研究,对于这些不同类别、不同特征的生物实体,构建生物知识图谱这一方式能够有效地组织专业领域内知识。针对生物领域知识图谱嵌入来进行链接预测这一领域面临的两个问题,即如何将生物实体结构的特殊性与知识图谱嵌入相结合,以及如何对含有结构信息的实体嵌入进行特征提取,提出了整体的生物知识图谱嵌入与链接预测的模型。对于生物实体而言,包含有特殊的结构化信息,例如蛋白质由氨基酸序列构成、核酸由核苷酸序列构成、分子结构信息由结构表达式展示等等。在生物实体嵌入转换方面,对于数据集中生物实体含有的序列信息,在含有大量分子结构信息的Uniport、Pubchem、Ch EMBL等数据库上构建模型,将生物实体转换为含有结构信息的嵌入向量,同时对于负样本生成问题,使用生成对抗网络来向数据集中加入高质量的负样本信息;在特征提取方面,使用二维卷积神经网络来对于生物实体之间的相互作用进行模拟,并使用多尺度卷积来获取分子结构的不同局部模式,而后结合卷积神经网络以及Bi-LSTM模型进行特征提取,使特征图融合了局部形态特征和远距离位置特征,有效地模拟了分子结构中的官能团信息和官能团之间的相互影响作用;最后,通过注意力机制层对分子片段区域权重进行调控,提高了主要在相互作用力中发挥作用的片段区域的重要性,进一步地提高模型效果,取得了良好的性能表现。将模型在两个已有研究的大型基准数据集DTI、TSPF上进行了对比实验,实验结果表明该模型能够在生物知识图谱链接预测上取得较好的结果,验证了提出模型的有效性。同时,基于两个结构信息更完善的数据集Davis、KIBA上进行了对比实验以及消融实验,验证了模型各层所使用算法的有效性。相较而言,所提出的生物链接预测模型在MRR、Hits@1、Hits@3、Hits@10指标上均有提升。
其他文献
乡村要振兴,教育需先行。乡村振兴战略是新时代党中央为破解乡村发展困境、全面提升乡村治理体系和治理能力现代化的重要举措。农村教育在乡村振兴战略的推进中迎来新发展机遇的同时,也面临着教育价值取向功利化、农村义务教育学校布局困境、人才培养目标定位矛盾、城乡二元结构对立等问题,出现了农村教育的“内卷化”现象。树立城乡教育一体化优质均衡发展理念、构建内外协同的农村教育制度体系、形成多元参与的保障共同体、培育
期刊
“认识秒”是一个托底课程,在此之前,学生已经学习了“时”和“分”两个常见的时间单位,不仅如此,学生还能认读和书写一般精确到分的时间时刻。“秒”是继“时”和“分”后出现的一个较小的时间单位,由于在日常计时中存在感很低,而且时间单位较为抽象,缺少直观的事物来刻画和形容,不像长度单位、面积单位那样可以借助许多事物来直观演示,且1秒的时间过于短暂,小学生很难敏锐地感受其长短。因此,本课着力解决这一难点,通
期刊
密码管理机制是一种利用数据库批量存储和管理个人密码的技术手段。为保证安全,用户的密码数据须进行加密处理后存入数据库。然而在实践中,用户往往倾向于使用简单重复的低熵密码作为密钥,这使得传统的密码管理机制极易受到合法编码问题的影响。同时,撞库攻击的存在也极大地威胁了密码数据库的安全,此种攻击利用数据库内泄露的信息作为参照,使得攻击的成功概率极高,极易造成大规模的隐私泄露。针对上述问题,提出了一种基于蜜
学位
近年来,随着互联网的发展,人们对基于位置服务的精度要求越来越高,由于WiFi设备的低成本和广泛部署,基于WiFi指纹的室内定位技术成为研究热点。但是大多基于WiFi指纹的室内定位技术存在两个问题:一是定位精度易受接收信号指示强度(Received Signal Strength Indication,RSSI)波动的影响,导致定位精度不高;二是设备多样性使得在线定位阶段的RSSI数据和离线训练阶段
学位
冠状动脉各解剖节段的准确识别对于心血管类疾病的诊断是非常重要的。目前的计算机辅助诊断系统通常不考虑报告冠状动脉疾病的病理位置,这就需要放射科医生手动进行相关检查和报告病变区域。实现冠状动脉的自动分段标记,将提高医生疾病诊断的效率,也有利于计算机辅助诊断技术的进一步发展。冠状动脉分段标记主要存在的问题是个体间的差异性大。很多现有的冠状动脉的自动分段方法存在识别的分支数量较少、侧支准确率较低、网络结构
学位
随着互联网的发展,数据发挥着越来越重要的作用。分布式协作机器学习允许多个客户端设备参与训练,同时一定程度上保证了数据隐私,因此迅速兴起。联邦学习和拆分学习是其两种主流实现方式。拆分学习与联邦学习相比可以更好地缓解客户端计算资源匮乏的情况,且具有更好的隐私性。用户参与拆分学习的目的是要通过参与全局的训练提高预测精度,然而参与训练的客户端设备数据的非独立同分布问题可能会对训练模型产生负面影响,导致客户
学位
电子计算机断层扫描是无创评估肌肉质量的黄金标准,依据第一腰椎位置的扫描图像中骨骼肌的面积可以鉴别是否患有肌少症。相对于人工手动标注的方法,自动分割技术可以提高分割效率以及准确度,再借助临床数据即可实现计算机辅助诊断。但现有的分割模型在来源不同或质量不一的图像上泛化性不够好,或者在分割区域边缘时不够精确,存在准确率不够高的问题。针对现有模型在肌少症辅助诊断领域准确率不够高和泛化性不够好的问题,提出基
学位
课程标准是有效实施教学的前提,也是指导教师如何把握课堂教学的依据,其中教材是实现课标要求的载体。进行教学设计首要任务就是研读教材,而研读的关键在于重难点的把握。《秒的认识》一课的重点难点确定为建立"1秒"、"1分"的时间观念,如何建立?本文从三个不同的体验中去"启蒙"、"发展"、"强化"时间观念,从而突破教学的重点难点。
会议
随着计算机软件在当今信息社会中的普及,软件的安全和版权保护问题愈来愈受到人们的重视。二进制代码是应用软件的重要发布形式之一,因而二进制代码和源代码匹配在应对这两个问题中发挥着重要作用,例如使用源代码来搜索已发布软件中的漏洞、对二进制代码进行溯源以检查其是否违背开源协议。目前,一些方法已经被提出来用于解决二进制代码和源代码匹配问题,这些方法通常是通过某些相似性约束来共同学习二者的嵌入(Embeddi
学位
遥感图像目标检测是遥感图像领域的一个重要研究方向,广泛应用于军事侦察和民用监控领域,其关键研究问题是如何提高遥感图像分类和定位的精度。然而,相对于自然图像,遥感图像目标存在排列密集、方向角度多、小目标数量大等特殊问题,利用通用的目标检测模型效果并不理想。因此,研究有效的面向遥感图像的目标检测方法,提升目标检测器的精度,具有重要的实际意义。针对遥感图像目标检测的上述问题,结合检测框设计和深度学习技术
学位