多源知识图谱无监督融合关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:ouyang1225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,知识图谱得到了广泛应用。随着不同机构组织或个人,根据自己的需求和设计理念不断创建相应知识图谱,不同知识图谱之间的融合日益重要。目前,绝大多数的知识图谱融合方法都是有监督的。有监督虽然能获得较好融合结果,但是存在对训练数据要求高、算法实时率低等问题。在以军事为例的某些特殊领域中,存在训练数据稀缺,算法实时性要求高等特点,无法应用有监督的融合方法,所以本文针对无监督条件下的知识图谱融合问题,研究了实体对齐和实体消歧技术,具体工作如下:1.设计了算法ST(Sim Rank+Trans H),通过集成相似度计算模型Sim Rank和翻译模型Trans H,提高了无监督条件下的模型查全率(Recall)。首先,ST利用Sim Rank算法,计算任意两点间的邻域相似度。然后,基于Trans H模型,将知识图谱嵌入到向量空间,并计算任意两点间距离。只有在两个节点邻域高度相似,且在向量空间中距离相近时,ST算法才对其进行融合。实验结果表明,在无监督条件下,ST算法较单个模型而言,显著提高了查全率(Recall)及综合评价指标F1分数,减少了对非重复节点的错误合并。2.设计了算法TPK(Trans H+PCA+K-means),通过主成分分析法PCA提取Trans H模型向量化结果,提高了K-means聚类结果的轮廓系数及兰德系数指标。首先,TPK利用Trans H模型,将知识图谱嵌入到向量空间,得到节点及边的向量化结果。然后,通过PCA提取图谱节点及边向量的主成分。最后,根据节点及边向量的主成分结果,使用K-means聚类算法进行聚类消歧。实验结果表明,在同等聚类中心规模下,提高了轮廓系数及兰德系数指标。3.设计了图谱节点聚类中心数的优化指标SRindex,通过优化SRindex,可确定实体节点的最优聚类个数,减少了消歧结果中的误判。首先,在不同的中心数目下,本文计算聚类结果的轮廓系数和兰德系数,并计算两者的和SRindex。本文以SRindex为优化目标,通过贪心算法最大化SRindex,从两个聚类中心开始,不断增加聚类中心数目,直至SRindex达到拐点,以此确定最佳的聚类中心数目。实验结果表明,通过SRindex确定节点的最优聚类个数,可减少消歧结果中的误判。4.研究了一种向量迁移方法,可基于向量化图谱反推其他图谱的节点及边向量,有效降低了知识图谱向量化中的时间开销。首先,本文使用Trans H模型对其中一个知识图谱进行向量化。然后,根据前件向量加关系向量等于后件向量的规则,通过向量相减运算,从已向量化的图谱反推其他图谱的节点及边向量。该方法可以大幅降低知识图谱融合中的向量化时间。最后,本文设计并实现了无监督条件下,针对多源知识图谱融合的原型系统,依托开源资料所构建的态势图谱进行了验证,结果表明,本文所提方法在多源知识图谱融合中是可靠且高效的,并且在“基于知识的战场态势分析与辅助决策技术”项目中得到了应用。
其他文献
《短歌行》是曹操的代表诗作,从中可以窥得其文学笔力与思想情感。诗人以“忧”为核心字眼,忧人生短暂,忧贤才难得,忧功业未成,一个“忧”字道出诸多困境,但诗歌整体上并不幽怨愤懑,反而呈现出“忧而慷慨”的感情基调,这与曹操的政治理想和当时的时代精神不无关系。
期刊
新体制SAR系统及其应用已经成为全球对地观测中的重点研究方向。在其中占有重要地位的多基线、多极化InSAR技术能够拓展观测维度,提高InSAR系统综合观测效能。干涉相位误差或者说系统的相干性是影响InSAR系统观测精度的重要因素。研究新体制InSAR系统中干涉相位的复杂统计特性,讨论包含时间、空间、极化的多基线多极化InSAR系统高度反演的误差分析模型,对于提高InSAR系统测高精度,满足新体制星
学位
在航天器交会对接、空间机械臂抓捕目标以及工业测量中,通常需要在目标物体上安装合作标志,辅助测量过程,达到解算出所载相机与目标物体的的相对位姿,或者无接触地识别出目标物体的大小、尺寸及形状等形貌特征的目的。具有身份信息的合作标志,可以通过唯一的编码值,实现多幅图像的之间的自动匹配。因此,本文选取了合适的几何特征,设计了稳定性强的编码标志方案。并且分析了影响编码标志点的自动识别和检测的干扰因素,需要解
学位
在作战中,武器-目标分配(Weapon Target Assignment,WTA)问题是防空指挥的重要内容,其目的是匹配合适的武器对目标进行打击,提高作战效能。传统的人为目标分配或优化算法难以满足目标分配实时性和分配方案准确性的要求。智能算法的发展为武器目标分配问题求解提供了思路,指挥人员可以根据智能算法求解最佳武器目标分配方案,为智能化决策提供了决策基础。本文以多枚反导导弹防空作战为主要研究对
学位
基于伽马(γ)谱仪的γ能谱测量与分析技术,能够无损、快速、准确地测量获得待测样品中γ放射性核素的种类及活度,在空间粒子探测、核应急、核安保等工作中发挥着极为重要的作用。在实际应用场景中,许多区域通常存在强而复杂的辐射场,射线的数量、能量斑杂,要求γ谱仪不仅具备强γ辐射场的测量能力和较好的能量分辨率,还要在便携性、保障性上表现优异。常见的γ谱仪,能谱模式的工作剂量率上限大多只能在10~2μGy/h以
学位
<正>深度教学理念是“双新”背景下衍生的适应如今高中语文教学发展的教学模式,它指出教师要借助一定的情境带领学生进行超越表层的知识符号学习,进入知识教学对学生的发展价值。互文式阅读则是依据目标文本的相关内容,选取相关文本或非文本进行互文阅读,
期刊
光纤合束器是制作全光纤结构高功率光纤激光器和放大器的关键器件之一,它的性能直接决定了光纤激光的输出功率。自问世以来,端面泵浦结构的光纤合束器以结构简单、耦合效率高、易于封装等优点得到了人们的广泛关注,利用端面泵浦结构的光纤合束器是目前市面上实现高功率光纤激光的主流形式。论文从端面泵浦方式出发,针对基于拉锥熔融光纤束技术实现的大芯径输入、输出的19×1高功率光纤合束器进行了理论和实验研究。论文的主要
学位
四环素类抗生素(TCs)是最广泛用于细菌感染的广谱抗生素之一,长期使用或过量使用会导致其在动物体内累积,进而通过食物链进入人体,危害人的器官、骨骼等。为了避免TCs残留超标的动物源性食品流通至消费者手中,预先进行准确的快速检测是保障食品安全的重要举措。荧光分析法是一种简便、灵敏、可操作性强、可见性好、成本低的快检方法。单信号荧光传感器具有简单、快速的特点,但仍存在准确度低、颜色变化不明显等不足。本
学位
最近几年里,在我国,全面健身事业正在迅速发展,所以体育产业成为了群众和政府关注的产业,体育产业的发展状况直接关系到全民健身事业的发展。那么,瑜伽在体育市场中如何发展,如何去规范体育市场、政府应该在规范体育市场中起到什么作用,应当受到政府单位的重视,同时相关单位也应该去承担起相应的责任。政府应当对体育市场进行有效的引导和规划,在政府作用下,体育市场健康发展才能促进全民健身事业的蓬勃发展。本文对天津市
学位
纤维素纳米晶(Cellulose Nanocrystals,CNCs)是目前最具有前途的绿色材料之一,它除了具有纤维素可再生、可降解和生物相容性的固有特性外,纳米级尺寸还赋予其更加优异的特性,如高强度、良好的光学性能、化学反应活性高、比表面积大等。然而,CNCs的亲水性使其在较低浓度下难以形成稳定的Pickering乳液,因此考虑与蛋白质结合形成复合物以提高其乳化性能。基于以上研究背景,本文以棉短
学位