大规模图数据的相似性查询和分类技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:lishashasky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是一种描述对象以及对象之间关系的表示模型,学术界和工业界产生的结构关系数据和非结构化关系数据都可以直接或间接地用图模型进行描述。图相似性查询旨在从两个图数据集合中找出所有两两相似的图对或从单个图数据集合中找出与查询图相似的所有图。前者称之为图相似性连接查询,后者称之为图相似性搜索查询。图分类的目的是通过从训练图集中学习分类模型,以此预测无标签图的类标签。图相似性查询和图分类技术在许多领域都有重要的实际应用价值,如化学领域、生命科学领域和社交网络领域。虽然图相似性查询和图分类技术具有重要的实用价值,但是,目前这两种技术的研究面临着两个严峻的挑战:(1)多图复杂特性引起的挑战。多图是一种描述对象和其组件之间的组合关系的表示模型,是由多个图组成的一个集合。虽然多图相似性查询和多图分类技术很重要,但是由于多图结构复杂,因此解决多图相似性查询和多图分类问题很困难。(2)大规模特性引起的挑战。目前,现有大规模图数据处理技术主要面向单个自身规模很大的图,这些技术不适合直接用于处理自身规模不大但数量庞大的图和多图。海量的图和多图的相似性查询和分类需要分布式处理,也面临许多技术挑战。本文从学术界和工业界的实际需求出发,分析了图和多图相似性查询和分类技术面临的挑战,针对自身规模不大但数量庞大的图和多图的相似性查询和分类问题进行了深入的研究,提出了一些高效的解决方法,满足学术界和工业界的实际需求。本文的贡献点总结如下:(1)针对大规模图相似性连接查询问题,提出了相应的解决方案,具体内容包括:提出了可扩展的前缀过滤技术,该过滤技术适用于大q-gram字母表;提出一种基于可扩展前缀过滤技术和MapReduce框架的并行的MR-GSimJoin算法,解决大规模图的相似性连接查询问题;使用多个技术对MR-GSimJoin算法进行优化,包括:压缩技术、两轮数据访问技术和复合键技术。最后,通过一系列的实验验证了所提出算法的有效性和高效性。(2)针对大规模多图相似性搜索查询问题,提出了相应的解决方案,具体内容包括:提出了一种多图距离定义,并优化了计算多图距离的KM算法;提出了增量式的多层倒排索引和多个下界剪枝策略;提出了一种基于多图距离、增量式多层倒排索引和多个下界剪枝策略的MGSS算法,解决小规模多图相似性搜索查询问题;提出了一种基于MGSS算法和MapReduce框架的并行的MR-MGSS算法,解决大规模多图相似性搜索查询问题;并使用局部化策略对MR-MGSS算法进行了优化,不仅减少了通信代价,而且在一定程度上解决了 map task负载不均衡问题,从而提高了 MR-MGSS的效率。最后,通过一系列的实验验证了MGSS和MR-MGSS算法的有效性和高效性。(3)针对有监督大规模多图分类问题,提出了相应的解决方案,具体内容包括:提出了一种基于MapReduce框架的并行的ME-MGC算法,解决有监督大规模多图分类问题;使用倒排索引技术和复用技术提高ME-MGC算法的效率;使用超限学习机方法(ELM)提高ME-MGC算法的分类性能,并研究了 ELM算法隐藏节点数目对ME-MGC算法分类性能的影响。最后,通过一系列的实验验证了 ME-MGC算法的有效性和高效性。(4)针对半监督大规模多图分类问题,提出了相应的解决方案,具体内容包括:提出了一种评价特征子图价值的打分函数;该打分函数既考虑有标签多图和无标签多图,又考虑多图的两层标签约束特性,有利于选择出质量更好的特征子图;提出了一种基于打分函数的MGSSL算法,解决半监督小规模多图分类问题;提出了一种上界剪枝策略,提高MGSSL算法的效率;提出了一种基于MGSSL和MapReduce框架的MR-MGSSL算法,解决半监督大规模多图分类问题;并使用复用技术和局部化策略对MR-MGSSL算法进行了优化。最后,通过一系列的实验验证了 MGSSL算法和MR-MGSSL算法的有效性和高效性。总之,本文研究了大规模图的相似性连接查询问题、大规模多图的相似性搜索查询问题、半监督大规模多图分类问题和有监督大规模多图分类问题,提出了高效的解决方案。实验结果表明,本文提出的方法的查询性能和分类精度均优于之前最好的方法。
其他文献
介绍了国内外冷冻浓缩技术的应用现状及最新研究成果,对冷冻浓缩技术的发展动向及存在问题进行了阐述与分析,并展望了未来的发展趋势。
近年来,我国小城镇建设进程不断加快,在这一过程中,由于缺乏理论体系指导、规划设计不到位、管理水平跟不上等原因,导致许多小城镇出现了生态环境破坏严重、文化缺失形象单一
血站为医院提供所需血液制品,是确保临床安全输血的基础,有着促进血液安全合理使用的责任。通过加强血站与医院之间合作,及时有效地为医院提供临床输血相关的服务和信息,解决
劝说语一般包含“拿道理说服某人”和“让某人做某事”两方面的内容。通过对《红楼梦》劝说语的分析,可以看出,说话人要实现自己的劝说目的,取得良好的劝说效果,就要考虑到自己与
随着互联网金融的兴起,大数据技术日益受到关注。当前国内经济增速放缓,企业经营违约风险凸显,银行业信用风险持续暴露。大数据逐渐成为商业银行控制信用风险的重要方式。基
改革开放以来,福建省非公有制企业党的建设经历了探索起步、巩固提高和深化拓展三个阶段。当前,随着我国改革开放的深入和社会主义市场经济体制的完善,福建省非公企业党的建设面
[目的] 本课题在前期研究工作的基础上,对番茄红素的测定方法作出一定改进,以建立测定番茄红素油树脂中番茄红素含量的简便易行的方法。对大鼠实验性肺纤维化进行干预治疗
目的:探讨北京康益德中西医结合肺科医院院内制剂养阴益肺通络丸治疗特发性肺纤维化气阴两伤、痰瘀阻肺证的临床疗效。方法:随机选择西医确诊为特发性肺纤维化,中医辨证为气
本文基于软件无电线技术设计了一套便携式数据链测试系统,为数据链装备和系统测试提供先进、便捷的测试手段和测试程序,对提高检测效率、降低生产和维护成本,提高装备保障能
基于Erlang的帧同步游戏服务器系统是未来移动游戏服务器系统发展的重要方向。相较于传统的状态同步帧同步有着流量小、效率高、支持游戏类型广泛等特点。使用的开发语言Erla