【摘 要】
:
科技是第一生产力。挖掘、分析科技活动产生的学术大数据中复杂的实体关系不仅有助于学者了解科学本身的规律,提升科研效率;同时为科学技术能力的评估、教育与科研等重要资源的分配提供了有力依据。学术网络中,节点之间的关系除了较容易获取的显式关系(如合作关系、引用关系),还有无法直接获取的隐式关系(如师生关系、异常引用关系)。学术网络中的隐式关系是实体之间隐含的语义关系。对隐式关系进行深入研究有利于探究科学潜
论文部分内容阅读
科技是第一生产力。挖掘、分析科技活动产生的学术大数据中复杂的实体关系不仅有助于学者了解科学本身的规律,提升科研效率;同时为科学技术能力的评估、教育与科研等重要资源的分配提供了有力依据。学术网络中,节点之间的关系除了较容易获取的显式关系(如合作关系、引用关系),还有无法直接获取的隐式关系(如师生关系、异常引用关系)。学术网络中的隐式关系是实体之间隐含的语义关系。对隐式关系进行深入研究有利于探究科学潜在的模式、关联和规律。但在学术大数据背景下,网络强异构性导致隐式关系表示模型匮乏;网络高维稀疏性导致隐式关系识别中特征选择低效;实体标签稀疏性导致隐式关系检测时特征提取困难;实体特征复杂性使多维度属性难以有效融合,多元隐式关系提取困难。为解决以上问题,本文基于计算社会科学、网络科学与图学习相关理论和方法,围绕学术网络异构性及高维稀疏性,学术实体标签稀疏性及属性多维性带来的一系列问题,对学术网络中的隐式关系进行挖掘分析。分别设计了基于图结构增强的隐式关系建模方法、基于图自编码器的隐式关系识别方法、基于自监督图学习的隐式关系检测方法和基于多视角图学习的多元隐式关系提取方法,有效解决了由网络异构性与高维稀疏性、实体标签稀疏性与特征复杂性导致的隐式关系表示模型匮乏、特征选择低效、特征提取困难、多维度属性难以融合的问题。主要研究内容如下:1.基于图结构增强的隐式关系建模。针对网络异构性导致的隐式关系缺乏明确定义与建模模型的问题,本文首先定义学术网络中的隐式关系,并构建模型对隐式关系进行表示。基于图卷积神经网络,结合外部属性信息与强度信息,设计结构增强的图神经网络架构,聚合多种学术实体信息,高效利用网络结构特征,为学术网络中的隐式关系建模。本文提出的建模方法有助于学术网络中的隐式关系特征提取,进一步刻画学术社会网络特征。2.基于图自编码器的隐式关系识别。针对学术网络高维稀疏性导致的隐式关系识别算法无法有效选择特征的问题,本文提出了基于图自编码器的隐式关系识别方法,并在学者合作网络中挖掘师生关系这一隐式关系对模型效果进行验证。所提出的模型充分利用学者的个人属性与合作网络属性,将网络中的节点与合作关系映射为低维稠密向量,并加入惩罚函数,在降低计算复杂度的同时更有效地对关系特征进行选择,提高隐式关系识别的准确性。3.基于自监督图学习的隐式关系检测。针对学术实体标签稀疏性导致隐式关系检测中关系特征提取困难的问题,本文提出了基于自监督图学习的隐式关系检测方法,并在论文引用网络中挖掘异常引用关系这一隐式关系对模型效果进行验证。使用迁移学习识别引文目的,基于数据预训练有效提取、迁移共有知识;同时融合自监督学习信息、细粒度语义信息有效提取隐式异常关系特征,精准检测异常关系。4.基于多视角图学习的多元隐式关系提取。针对学术实体多维度属性难以有效融合,导致多元隐式关系提取困难的问题,本文提出了基于多视角图学习的多元隐式关系提取方法,并在论文引用网络中提取多个节点形成的骨架网络对模型效果进行验证。模型充分融合节点结构信息、节点多重关系信息、节点间关系强度信息以及外部属性信息,从多个角度刻画实体及其关系特征,从整体角度对网络中多个节点之间存在的隐式关系进行挖掘,构建了融合多维属性、显式与隐式关系的学术网络原型。
其他文献
随着智能大数据时代的来临,多媒体数据呈现爆炸式增长。面对如此海量的、高维的、服从不同分布的大规模数据,如何快速且有效地对其进行检索、分类、并且能够从中提取有利用价值的信息,已经成为现代机器学习最具有挑战性的前沿方向之一。迁移学习是机器学习领域用于解决标注数据稀缺这一基础问题的重要方法,它放宽了传统机器学习中训练数据和测试数据需要满足独立同分布的假设条件,因而能够在两个彼此不同但又相关的领域之间发掘
在肾衰竭患者体内普遍存在蛋白结合尿毒症毒素(Protein bound uremia toxins,PBUT)。该类毒素一般是指与人血清白蛋白结合的分子量小于500道尔顿的疏水性小分子物质,包括已经被证实诱发肾透析患者产生心脑血管并发症的硫酸吲哚酚、硫酸对甲酚等,占肾衰竭患者体内毒素约26%。现有血液透析技术对肌酐、尿素氮等水溶性小分子去除效果良好,但对蛋白结合尿毒症毒素去除效果不佳,发展高效的P
柔性应变传感器是将外部刺激转化为电学信号的一类器件,其具有可弯曲和可拉伸的特性,在软体机器人、生物医疗以及人机交互等方面已有大量研究报道。柔性应变传感器的核心部件是应变传感材料,制备耐拉伸和环境稳定的应变传感材料仍具有较大的挑战。针对上述问题,本论文利用共价键交联与非共价键交联共同作用的策略,制备出耐拉伸、保水性和粘附性的双网络离子水凝胶,耐拉伸环境稳定的双网络乙二醇有机凝胶和耐拉伸耐潮湿的弹性体
碳点(carbon dots,CDs)是一种新型的零维碳基纳米材料,尺寸普遍小于10 nm,具有优异的光学性能,在生物成像以及肿瘤治疗等领域受到广泛关注。尽管碳点克服了无机纳米材料生物相容性低以及小分子荧光材料制备复杂、价格昂贵等问题,但目前仍面临诸多挑战。例如,用于成像的碳点吸收和发射波长普遍较短(400-500nm),易受背景荧光干扰,且缺乏靶向性。基于此,本论文通过深入研究碳源分子结构和碳点
设计模式是软件设计中重要的概念之一,旨在通过复用设计经验来提升软件系统开发的效率和质量。围绕软件设计模式已有诸多研究工作,但仍存在一些问题未被解决:关于设计模式分析的研究工作通常只涉及少数几个设计模式,而目前已积累了大量的设计模式,已有分析方法(如调查问卷方法)很难对数量众多的设计模式进行处理;由于软件技术的高速发展,设计模式文档中的应用信息很难与当前流行的软件技术进行即时关联,而如何高效地获取这
光电催化技术是直接利用太阳能生成清洁能源和绿色化工产品的重要技术之一。铟基硫化物半导体凭借其优异的光吸收、电化学以及催化性能,成为光电催化领域的热点研究材料。本论文以n型铟基硫化物为研究对象,基于硫化物本身成分和形态的可调性、多样性和通用性,通过调控铟基硫化物异质光阳极的物相组成和形貌结构,提高其光生电荷传输效率、优化表面催化反应活性和稳定性,取得了以下研究成果:基于层状材料有机-无机杂化的合成策
目前,造血干/祖细胞(Hematopoietic stem/progenitorcells,HS/PCs)的体外扩增是解决临床移植用HS/PCs数量短缺的有效途径之一,但离体培养通常伴随着其长期增殖活性的丧失。因此,体外培养如何能有效维持HS/PCs的干细胞活性且又能实现其大量扩增是当前亟待解决的关键问题。随着对造血系统的生理结构和功能调控的研究,仿生构建造血微环境来实现其有效扩增成为当前研究热点
线粒体是真核细胞进行能量代谢的细胞器。许多化学品具有线粒体毒性,可导致线粒体功能紊乱。因此,有必要筛查引起线粒体功能紊乱的化学品。仅通过实验测试的方法,难以满足众多化学品的线粒体毒性筛查需求。有必要发展快速、高效的方法,筛查化学品的线粒体毒性。定量构效关系(QSAR)模型可用于高效筛查和预测化学品的毒性。本论文针对模型训练集数据不平衡、黑箱模型难以对毒性机制进行解释、已有线粒体毒性QSAR分类模型
CO或CO2(统称COx)加氢直接制二甲醚(DME)是很有发展前景的DME生产工艺。该工艺所用的催化剂是由甲醇合成活性组分和甲醇脱水活性组分组合而成的双功能催化剂。以甲醇合成活性组分铜锌铝(CZA)为核,甲醇脱水活性组分HZSM-5沸石为壳,构筑的核壳结构双功能催化剂(CZA@HZSM-5),因其封闭的限域空间,表现出较高的DME选择性,所以备受关注。在CZA核上直接水热包覆HZSM-5合成核壳结
光催化/微生物燃料电池能够借助光催化或生物催化作用净化废水,并同步回收废水中化学能转化成电能,近年来在水污染控制和清洁能源转换领域备受关注。构筑高催化活性、高稳定性的光/电催化电极是实现高效去除污染物和转换能量的关键。金属氧化物电极具有稳定性高、价格低廉和易制备的优点,但也存在催化活性不足的问题。目前单一形式的燃料电池对难降解废水的处理效能相对有限。针对以上问题,本研究设计并制备了新型金属氧化物复