异构信息网查询和分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cashcumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络表示现实世界中实体以及实体之间的联系。随着科技的进步和互联网的普及,信息网络应用广泛,如社交网络、生物网络、交通网络等。信息网络可以用图数据模型进行建模,包含顶点和边两个元素,其中顶点对应现实世界中的实体对象,边对应实体之间的联系。按照信息网络中顶点和关系的类型的数量,信息网络被划分为两类:同构信息网和异构信息网。同构信息网中顶点和边的类型都只有一种,如朋友网、作者合作网等。异构信息网包含多种类型的顶点和边。大多数真实世界的信息网络都是异构的,如知识图谱、社交网络、物联网等。异构信息网络强大的表达能力使其蕴含大量有价值的信息,使异构信息网络查询和分析研究具有重要的现实意义。本文运用算法学、数据分析和计算复杂性的相关技术,结合异构信息网信息丰富和结构复杂的特点,对异构信息网络查询和分析问题进行深入研究,主要研究成果概括如下:1.本文研究了异构信息网上可达性查询问题。可达性查询是查询两个顶点之间是否存在路径连接,是信息网络中的基本查询。研究两个顶点的关系时,首先考虑的查询也是两点的可达性。然而,信息网络上的可达性查询不涉及顶点的类型和边的类型,且都是建立在有向无环图的基础上。在异构信息网中环路是经常存在的,把异构信息网中强连通组件压缩成一个顶点会丢失不同类型顶点之间的路径信息,现有的信息网络上可达性研究都无法解决异构信息网上基于不同关系的可达性查询。本文形式化的定义了异构信息网上可达性查询问题,并证明该问题的时间复杂性是PTIME的。随着网络规模的爆炸式增长,每个查询都需要遍历一遍网络的时间开销是不能容忍的。因此,本文提出MP索引结构用于快速响应查询。通过将网络的元路径按照长度进行分层,构建元路径的偏序图。在偏序图上选择一部分元路径,并预计算元路径上顶点的可达信息,使多个查询可以共享相同元路径中顶点可达信息。在真实和人工数据集上实验验证了本文算法可以快速响应查询。2.本文研究了异构信息网上聚集算法。聚集操作允许用户从特定的维度上观察数据的视图,是多维分析的基础。然而,信息网络上的聚集操作只基于同构信息网上顶点的属性维度,与顶点的类型、边的类型、以及网络的结构无关。异构信息网不仅包含多种类型的顶点,还包含多种类型的关系,聚集的维度不应该仅限于顶点的属性,而忽略丰富的结构信息。因此信息网络上现有的聚集工作无法用于异构信息网。本文提出了基于多种类型顶点和多种类型边的聚集操作,聚集的维度包括:顶点的类型、顶点的属性和边的类型。定义了异构信息网上基于图熵的度量函数,该函数能够很好的刻画异构信息网中顶点在不同关系上的相似度。本文证明了异构信息网上的聚集问题是NP难的,并提出了线性时间和空间的高效近似聚集算法。聚集算法包括两个过程:信息维聚集和结构维聚集。本文进一步证明了算法的近似比。最后在真实数据集上的实验结果显示异构信息网上的聚集算法能够在特定的维度上对异构信息网进行深入的分析,并具有较好的可扩展性。3.本文研究了异构信息网上立方体计算问题。立方体计算允许用户从不同的维度观察数据对象的概括,是多维数据分析的核心。由于信息网络上聚集操作的维度定义的局限制,也导致其立方体物化技术只基于顶点的属性维度,通过属性子集合之间的包含关系,选择部分立方体进行物化。异构信息网上维度概念的复杂化,使得传统立方体物化技术并不适用于异构信息网。本文提出了异构信息网上立方体概念,从多个维度分析网络:顶点属性、顶点类型和元路径。本文研究了异构信息网上的部分立方体物化问题,证明了该问题是NP难的。为了解决部分立方体物化问题,本文提出了异构信息网上聚集图之间两种依赖关系:属性依赖和路径依赖,利用这两种依赖关系建立代价模型和构建方体格。本文为解决部分立方体物化问题提出了贪心算法,证明了该算法的近似比。在真实数据集上的实验结果显示异构信息网立方体可以从多个维度上对网络进行有效的分析,部分立方体物化算法可以提高查询效率。4.本文研究了异构信息网上近似冰山立方体问题。冰山立方体问题是计算聚集值大于阈值的立方体,是多维数据分析中的重要操作。然而,现有信息网络上冰山立方体也是基于同构信息网中顶点的属性维度。显然,这并不适用于异构信息网。对于具有多种类型顶点和边的异构信息网来说,冰山立方体需要涉及顶点的属性维度、类型维度,以及结构维度,聚集函数也更加复杂。因此,需要一种新的冰山立方体定义,刻画异构信息网复杂的语义和结构。本文形式化的定义了异构信息网上冰山立方体,证明了该问题是NP难的。为了快速求解问题,本文设计了基于随机游走的近似算法,并证明了基于随机游走计算顶点相似性的相对误差界。本文设计了两种剪枝策略。当聚集函数满足单调性时,可以提前结束方体计算或直接对方体进行剪枝。在真实和人工数据集上进行了大量实验,结果显示冰山立方体可以帮助用户发现感兴趣的聚集结果,近似算法和剪枝策略算法大大缩短查询时间。
其他文献
目的 探讨支气管哮喘急性发作采用沙丁胺醇联合布地奈德治疗的临床疗效。方法 选取我院2014年3月—2016年3月收治的100例支气管哮喘患者为研究对象,随机分为研究组与对照组,
目的探讨在治疗Ig A肾病时使用黄葵胶囊对肾小管功能的影响。方法选择患者88例。为其中44例患者采用常规治疗,为对照组;另外44例患者则在常规治疗基础上引入黄葵胶囊治疗,为
Pro/Engineer三维设计软件的应用越来越普遍,由于其数据的相互关联性及复杂性的原因,在进行协同设计时,出现了一些问题。如因某零件的丢失或改名导致整个系统模型打开失败、
期刊
工作流技术是通过工作流对业务流程化的管理,是利用计算机辅助预先定义好的工作流逻辑部分自动或完全,协同推进任务的过程实例来达到执行企业级业务的经营过程.并使伴随着流程实
与传统的实验系统相比,基于网络远程数据采集的虚拟实验系统,能降低实验室建设成本,它使课堂教学更形象、生动,能更好地实现理论教学与实践相结合。该文提出基于DataSocket远程数
嵌入式技术应用的迅速发展,相应人才的需求也不断增长,而高职院校现阶段师资、体制和经验的不足,不能满足市场的需求。该文针对这一状况,介绍了为配合高职院校嵌入式专业建设
软件复用是将已有的软件及其有效成分用于构造新的软件或系统软件,如何较好的应用软件复用技术,成为软件工程研究中的一项重要课题。文章通过分析当今的软件复用技术,并对其
目的探析联合检验脂蛋白(a)和胆红素诊断冠心病的临床意义。方法 2016年1月—2017年8月,选取我院150例冠心病患者为观察组、150例健康体检者为对照组,使用全自动生化分析仪进