单源SimRank计算优化及其在协同过滤中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:pkuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图作为一种表达对象与对象之间抽象关系的非线性数据结构,具有更加一般化的表达能力,在我们现实生活中扮演者重要的角色。近年来,随着互联网、云计算、物联网等技术的高速发展,数据增长的规模正在以前所未有的速度增加,“大数据”给各行各业带来了很大的机遇和挑战,同时图数据的规模也随着个性化推荐、信息检索、社交网络分析等应用的蓬勃发展变得越来越大。随着图数据规模的增大,人们发现庞大的图数据中蕴含着巨大的商业价值,基于图结构的各种互联网应用在近些年来层出不穷,在这些应用中,最典型和最基本的一类任务就是计算对象和对象之间的相似度。SimRank是一种非常流行的基于图拓扑结构信息来衡量任意两个对象之间相似程度的模型,其核心的思想为:一个对象应该与自身最相似,如果两个对象都被相似的对象所引用,那么这两个对象也相似。然而,由于SimRank定义的递归依赖性,导致了SimRank计算的时空复杂度很大,图数据规模的增大在另一方面也使得问题更加突出。在本文中,我们主要针对单源节点SimRank的计算,即给定一个查询顶点,返回该节点与所有其他节点间的相似度,提出并实现了一种称之为ProbeWalk的高度并行的算法。我们的方法是基于随机游走模型改进并优化的,它由离线索引过程和在线查询过程组成。通过两个过程的组合可以将传统的双向随机游走过程转化为单向随机游走过程,索引阶段的处理需要消耗线性的时间和空间,而单源节点的查询阶段只消耗常数时间和空间。我们将算法部署到流行的分布式计算平台Spark上,结果表明了我们的算法具有较高的准确性和高效性。更进一步,相似度度量是协同过滤中的重要组成部分,为了解决传统的相似度度量方法在协同过滤中效果较差和SimRank不能直接应用于带权二部图的问题,本文进一步将SimRank++引入到协同过滤中,提出了一种基于两阶段蒙特卡洛模拟的随机游走方法,使其能够在较大规模协同过滤问题中进行应用。实验表明,基于SimRank++的协同过滤在MovieLens数据集上的评分预测误差要优于Pearson相关系数和Cosine相似度度量方法。
其他文献
“社会弱势群体”是指在社会人群构成中难以依靠自己的能力保持个人或家庭最基本的生活,为了维持生计仍需依赖国家和社会给予支持和帮助的社会群体。弱势群体人员在全国范围
目的探讨维持性血液透析(MHD)患者血脂联素(ADPN)改变及与心脑血管事件的关联。方法MHD患者178例,正常对照组30例,分别测定血常规、肝肾功能、电解质、空腹血糖、CRP、PTH及
让计算机具备情感语音交流能力一直是人机交互领域的研究难点和热点。在人类交流的过程中,语音信号既含有丰富的文本信息,也包括了说话人的情感特征。为了获得更富有情感的机器语音,针对机器合成的语音信号进行情感转换研究显得尤为重要。情感语音转换是一种研究将中性音转换为带有某类情感语音的技术,广泛使用于情感识别、医疗、军事等领域。本文主要针对情感语音转换中的特征和转换模型进行研究,主要的研究内容如下:首先,提
互联网技术的迅速发展和日益普及,造成电子文本信息的急速累积,且这些海量原始文本信息甚为冗杂。而文本自动分类作为处理和组织大规模电子文本数据的关键技术,可以在一定程
近年来,模块化多电平变流器(Modular multilevel converter,MMC)因其可拓展性强、谐波特性好、故障穿越能力强等优点,在高压直流输电、大功率电机拖动、电能质量治理等领域受
随着经济全球化步伐的加快,互联网的蓬勃发展给人们带来了各方面的便利。微博文本蕴含着与人息息相关的海量信息,通过对微博文本进行情感分析可以促进产品的改进、舆情的及时
进入21世纪,中国高等教育由“精英型教育”过渡到“大众化教育”阶段,高等教育从计划经济时代的义务教育加统筹分配转变到如今市场经济的供需双向选择阶段,高等教育国际化、
目的胚胎心脏发育和先心病的发生受多种遗传因素共同调节,TBX1(T-box factor1)基因、转化生长因子β(transforming growth factor-β,TGF-β)信号通路都已被证实是其中较为重
在计算机视觉和图像处理中,运动目标检测一直都是重要的研究方向,运动目标检测是目标获取、目标跟踪和目标行为分析的基础工作,运动目标检测使用范围十分广泛,比如在计算机视
香菇是一种担子菌纲伞形科植物,也是目前世界上第二大食用菌,早在一千多年前就被收录入《本草纲目》中。现代医学发现,香菇具有抗肿瘤、抗氧化、保护肝脏、调节血压、防化学