基于SimRank的单源Top-k查询算法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:chuhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SimRank是一种基于图拓扑结构来评估顶点相似性的方法。基于SimRank的单源Top-k查询问题,是求解与给定查询顶点SimRank相似度最高的k个顶点,其广泛应用于大规模数据图挖掘、协同过滤等领域。现有算法在计算单源顶点的Top-k结果集时,需要预先计算所有顶点与查询顶点之间的SimRank相似度,然后排序筛选出Top-k结果集。由于现有算法在计算过程中存在许多无效计算,导致求解Top-k结果集的效率较低。针对该问题,本文对单源Top-k查询问题进行研究,具体的研究内容如下。首先,提出基于SimRank上下界的Top-k结果集查询算法—HitSim。与现有算法直接计算所有顶点的SimRank不同,HitSim通过缩减所需计算的顶点规模,来提升查询Top-k结果集的效率。其具体思想是:先对顶点进行分类,对不同类顶点分别求出相应的SimRank上界,然后在求解过程中维护Top-k结果集的SimRank下界。通过比较Top-k结果集的下界和不同类顶点集的SimRank上界,来减少所需处理的顶点数量。其次,提出针对稠密图的优化算法HitSim-OPT。由于HitSim对稠密图的顶点进行分类时,顶点可能会集中在一个顶点集中,导致HitSim剪枝效果变差。为解决这一问题,HitSim-OPT直接计算出所有顶点的SimRank上界,在计算过程中维护Top-k结果集的SimRank下界,通过比较上下界,来确定是否需要处理相应的顶点。同时,对需要处理的顶点,使用其SimRank上界来减少反向游走的次数。最后,基于8个真实数据集进行测试,实验结果表明,本文所提出的HitSim算法和HitSim-OPT算法在保证查询结果准确率的基础上,查询效率比现有算法提升近三个数量级。
其他文献
学位
学位
学位
社区是一组内部紧密连接的结点,用于描述对象间存在的密切关系。社区搜索是在图上寻找一个符合查询条件且结点紧密连接的子图。例如在科研社交网络中组建个性化科研小组,在服务网络搭建中构建高性能服务器集群等等。目前大部分社区搜索问题从社区的结构角度开展研究,这类传统问题主要关注社区的紧密度,没有考虑到社区搜索中存在的资源限制情况以及社区的属性特征。针对上述问题,本文研究规模受限的影响力社区搜索问题,具体研究
学位
学位
学位
学位
数字经济合作是中国—东盟全面战略伙伴关系的重要内容。近年来,中国与东盟国家在数字经济产业合作领域取得重大进展。在全球经济前景黯淡的背景下,数字经济发展需求上升、区域贸易环境改善、中国—东盟经济纽带加强、非传统安全挑战叠加等诸多因素为中国与东盟国家深化数字经济产业合作带来机遇。同时,美国对华数字技术竞争、部分国家对华战略疑虑、东盟营商环境制约、区域数字治理赤字等因素也为双方深化数字经济产业合作带来风
期刊
学位
学位