面向不确定图数据的子图模式挖掘算法的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:mazhiqianggege
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种重要的数据结构,已经在多个领域得到了越来越广泛的应用。例如研究人员在对化合物、社交网络等数据进行分析时,均采用图这种结构来进行建模,得到的是确定图数据。然而,在现实生活中,由于采集、传输等技术的条件限制,数据通常是含有噪音的、不完全的和不精确的。因此,将其建模为不确定图数据更为合适。随着不确定图数据量的急剧增加,研究如何高效地从其中蕴含的丰富结构及语义信息中挖掘出有用的知识,是数据库及数据挖掘研究领域的热点之一,有着重要的理论研究和应用价值。由于不确定性的引入,传统的图数据挖掘算法不能直接用于不确定图数据。基于此,本文围绕不确定图数据中的子图模式挖掘问题展开了研究,具体工作如下:首先,学习不确定图数据挖掘领域的相关知识,掌握已有挖掘算法的核心思想,并分析每种算法的适用场景及优劣。其次,针对不确定图数据中的频繁子图模式挖掘问题,提出了遵循“候选产生——候选判定”框架的算法FSMWT (Frequent Subgraph Pattern Mining With less Test)。算法采用著名的DFS编码枚举框架并对其进行了改进,为枚举框架中的每个节点创建了相应的GEindex数据结构。在候选产生阶段,通过GEindex实现了只在包含该子图的图中进行子图扩展而不必扫描整个数据库。在候选判定阶段,利用GEindex实现了期望支持度的直接计算而无需进行子图同构操作。此外,文中还提出了确定性剪枝和概率性剪枝技术,从而进一步提高了算法的效率。实验表明,FSMWT比其他算法具有更高的效率。最后,针对从不确定图数据中挖掘k-truss紧密子图模式的问题提出了MTKUG (Mining Top-K k-truss from Uncertain Graph Data)算法。文中形式化定义了从不确定图数据中挖掘k值最大的前K个k-truss紧密子图的问题,并给出了期望支持度的概念。算法中提出了期望支持度的计算方法,并利用并行计算系统提高了计算效率。另外,文中还提出了剪枝策略以进一步提高算法效率。通过只挖掘k值最大的前K个k-truss紧密子图,有效地减小了结果集规模。通过大量实验证明了所提算法的有效性和高效性。
其他文献
  本文就是从爬行虫入手,着重讨论爬行虫初始URLs的形成,如果初始URLs集是个性化的(根据用户的兴趣进行选择的),则搜索结果也必定具有用户个性化的特点。本文依此目标,就初始UR
随着无线通信、传感器技术、嵌入式应用及微电子技术的快速发展,人们可以很方便的获取周围所需的信息,为无线传感器网络的发展提供了广阔的前景。由于IEEE802.15.4标准协议具
随着信息安全越来越受到人们的重视,很多高校计算机系开设了信息安全专业,迫切需要一个安全产品实验平台。但是安全产品大多都是软硬结合的产品,配置复杂,很少在教学或培训中
本文分别从能量有效路由问题和移动性问题两个方面对移动自组网进行了研究。 本文对能量有效路由问题的研究。在对动态源路由协议深入研究的基础上,引入了节点的优先级机制
  首先本文以机器人足球比赛中三对三项目为研究对象,首先通过分析三对三项目中决策子系统需要解决的问题,决策子系统自身的特点以及设计时需要考虑的问题等诸多因素,设计了一
随着互联网的飞速的发展,网络安全的重要性越来越突出。如今,DoS攻击业已成为网络安全领域最为严重的问题,它利用众多受到入侵控制的主机,同时向受害者主机发起攻击,以达到消耗目
机器翻译是人们梦寐以求的翻译方式。机器翻译是指借助计算机自动完成语言翻译的过程。在目前所有的机器翻译方法中,统计机器翻译以其优异的翻译性能受到了极大的关注。在所
近年来,随着信息技术的进一步发展,企业数字化进程的不断加深,企业需要处理的数据也出现了爆发式的增长。为了提高企业的流程效率、盈利能力和产能,出现了一些列以云计算为代
  随着计算机技术网络的迅速普及和发展,个人乃至公司购物的方式也发生着巨大的变化,各种类型的电子商务网站有如雨后春笋般兴起。在短短的时间内,电子商务经历了产品介绍和产
经过不到十年的推广应用,网络已深入到了社会生活的各个角落,正发挥着巨大的作用。但是,由于在全球网络中占绝对数量的还是IP网络,其特点就是竞争应用网络带宽,网络提供“尽