论文部分内容阅读
图作为一种重要的数据结构,已经在多个领域得到了越来越广泛的应用。例如研究人员在对化合物、社交网络等数据进行分析时,均采用图这种结构来进行建模,得到的是确定图数据。然而,在现实生活中,由于采集、传输等技术的条件限制,数据通常是含有噪音的、不完全的和不精确的。因此,将其建模为不确定图数据更为合适。随着不确定图数据量的急剧增加,研究如何高效地从其中蕴含的丰富结构及语义信息中挖掘出有用的知识,是数据库及数据挖掘研究领域的热点之一,有着重要的理论研究和应用价值。由于不确定性的引入,传统的图数据挖掘算法不能直接用于不确定图数据。基于此,本文围绕不确定图数据中的子图模式挖掘问题展开了研究,具体工作如下:首先,学习不确定图数据挖掘领域的相关知识,掌握已有挖掘算法的核心思想,并分析每种算法的适用场景及优劣。其次,针对不确定图数据中的频繁子图模式挖掘问题,提出了遵循“候选产生——候选判定”框架的算法FSMWT (Frequent Subgraph Pattern Mining With less Test)。算法采用著名的DFS编码枚举框架并对其进行了改进,为枚举框架中的每个节点创建了相应的GEindex数据结构。在候选产生阶段,通过GEindex实现了只在包含该子图的图中进行子图扩展而不必扫描整个数据库。在候选判定阶段,利用GEindex实现了期望支持度的直接计算而无需进行子图同构操作。此外,文中还提出了确定性剪枝和概率性剪枝技术,从而进一步提高了算法的效率。实验表明,FSMWT比其他算法具有更高的效率。最后,针对从不确定图数据中挖掘k-truss紧密子图模式的问题提出了MTKUG (Mining Top-K k-truss from Uncertain Graph Data)算法。文中形式化定义了从不确定图数据中挖掘k值最大的前K个k-truss紧密子图的问题,并给出了期望支持度的概念。算法中提出了期望支持度的计算方法,并利用并行计算系统提高了计算效率。另外,文中还提出了剪枝策略以进一步提高算法效率。通过只挖掘k值最大的前K个k-truss紧密子图,有效地减小了结果集规模。通过大量实验证明了所提算法的有效性和高效性。