论文部分内容阅读
近年来,随着图结构在生物信息网络和社交网络等领域的广泛应用以及各种外界因素对数据获取的干扰,不确定图模型越来越受到研究者的关注。同时,子图的相似性查询作为图上的基本查询之一广泛应用于各种问题中,研究者们设计并实现了大量的算法来处理查询图为给定的确定图的子图相似性查询,然而对于查询图是不确定图和查询结果为Top-k的情况并没有给予足够的重视且遇到了很大的挑战。针对上述问题,本文对不确定图上的Top-k子图相似性查询问题进行研究。首先,本文考虑边之间的存在概率相互独立的不确定图为数据图的情况,由于查询图为数据图中的一个导出子图,故查询图也为边之间的存在概率相互独立的不确定图,然后本文形式化定义了面向不确定图上的Top-k子图相似性查询问题,并针对此问题提出了基于可能世界模型的算法。本文中提出了一些优化算法以进一步提高算法的执行效率,例如根据边之间概率的关系及所求匹配结果的结构特征实现索引优化以减小索引集大小;基于聚簇分块技术对数据图进行预处理以尽量缩小子图匹配范围;根据各个匹配边的概率与编辑距离之间的关系改进计算模型从而避免枚举所有可能世界图来计算概率;根据Top-k的要求提出了基于阈值和Bound剪枝的匹配处理过程等。最后通过大量实验验证所提及的算法及优化算法的有效性。此外,本文考虑边之间的存在概率具有相关性的不确定图为数据图,查询图同数据图类型相同且为其导出子图的情况。该问题是上述问题的改进,定义了带有相关性的不确定图上Top-k子图相似性查询问题。并在上一节的基础之上,结合本节中边之间的关系提出了新的索引建立方法,采用动态获得子结构的算法过程并结合概率上界实现优化剪枝。文中通过实验验证了所提到的算法和优化方法的有效性。总之,本文从越来越接近实际应用的不确定图模型的Top-k子图相似性查询的典型特征和挑战出发,针对不确定图和带有相关性的不确定图上子图相似性查询的关键技术展开研究,如基于动态匹配方式等,并提供了有效的基于不确定图上的Top-k子图查询问题的处理方法。本文的研究工作所采取的算法思想和剪枝策略为相关课题的开展铺平了道路。