多视角、多层次大规模并行化推荐算法研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:laowangtou2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,推荐系统在人们的日常生活中起着重要的作用。尤其是在信息爆炸式增长的当今,人们难以从海量的数据中去寻找自己所需要的个性化信息。因此,研究实现适用于大规模场景的智能化、个性化的推荐系统已经成为了人们生活中的迫切需求。经过数十年的研究发展,目前存在着多种类型的推荐算法与系统,它们适用于多种类型的数据。人们可以针对不同类型的数据选择适当的算法以进行推荐。一方面,现有的推荐算法与系统一般都只有针对较小规模数据的单机实现,它们难以应用于海量数据场景。为此,本文首先针对多种传统的、浅层次单机推荐算法在Spark平台上设计实现了相应的并行化方案,其中包括适用评分数据较为稠密和秩较高场景、基于近邻模型的推荐算法,适用于数据较为稀疏场景、基于SVD分解的协同过滤算法,以及适用于多视角数据场景的MVM推荐算法。这类推荐算法从不同的视角、利用浅层次的特征提取方式对用户进行推荐。如近邻模型的推荐算法直接利用了用户或项目的评分向量进行推荐,它是一种单视角、未分解(0层次)的算法:基于SVD分解的推荐模型则利用分解出的用户和项目特征进行推荐,是一种双视角、1层分解的推荐算法;而MVM算法则是利用分解机制对多种类型的数据进行特征提取,从而进行推荐,是一种多视角、1层分解的推荐算法。另一方面,在智能设备不断发展的同时,信息类型也在朝着多元化的方向发展。传统的协同过滤推荐算法难以适用于复杂类型的数据,例如文本、图片、视频等信息。为此,本文针对现实生活中的复杂数据类型在TensorFlow平台上研究实现了基于深度模型的推荐算法。如利用深度神经网络来学习用户项目评分信息中用户和项目的协同过滤特征。而针对文本、图片等复杂类型的数据,本文设计实现了基于深度模型的内容过滤算法。并且,为了综合利用多种类型的数据信息,本文设计实现了一个深度多视角推荐模型,以保证充分利用现实世界中的多种信息。最后,本文还设计实现了一个深度推荐模型的并行化框架,并且该框架适用于本文的所有深度推荐模型。这些推荐算法利用深度神经网络对数据进行特征提取,因此属于多视角、深层次的推荐算法。对于多视角、浅层次的推荐算法,本文在保证算法精确度的同时主要针对算法的执行效率进行优化。对于近邻模型的推荐算法,本文并行化方案相对于单机算法提升了 15倍左右;对于基于SVD分解的推荐算法,本文并行化方案则相对提升了 30倍左右;而对于MVM算法,本文的并行化方案相对于GraphX并行版本提升40%左右的性能。对于多视角、深层次的推荐算法,本文的目的是提高相应的精确度并保证算法适用于大规模场景。对于用户项目的评分行为数据,本文提出的深度协同过滤算法相对于NCF、NNMF等模型提升了 0.43%-1.93%的精确度;对于复杂的文本类型数据,本文提出的深度内容过滤算法相对于已有的内容过滤算法提升了0.14%-2.3%的精确度。对于深度多视角推荐模型,本文提出的算法相对于深度协同过滤和深度内容过滤提升0.49%-1.89%的精确度。最后,实验数据表明本文设计实现的深度推荐模型的并行化方案具有良好的并行扩展性。
其他文献
互连网络是超级计算机的重要组成部分,其拓扑结构是指超大规模计算机系统中的元件(处理器)的连接模式.实际上,互连网络的拓扑结构就是图.互连网络的结构和性质是超级计算机研
随着经济全球化、信息化进程的加快,近几年我国现代物流业有了较快的发展。目前,我国物流产业呈现多元化格局,竞争更为激烈,一是国外跨国公司以合资或独资形式建立外资物流企
目的:了解先天性心脏病手术中常用的几种血管和补片替代物尚存在的问题,并制备新型生物材料用于构建组织工程血管及补片。方法:通过大体观察、组织切片染色,了解现有管道材料
纺织品,是人们生活中必不可少的物品。服装则是从最原始的野兽皮开始不断发展演变至如今不同材料、不同样式、不同功能的衣物,不仅为人类日常穿着提供保暖遮体的作用,更被赋
近年来基于膜包裹的纳米药物载体在生物医学领域得到越来越广泛的应用,其中红细胞膜包裹的纳米粒子因完整保留了红细胞膜的结构和表面蛋白可赋予纳米粒子良好的生物兼容性和
葡萄的贮藏期短,在贮藏与运销过程中易发生脱粒、腐烂、干梗、褐变等现象,严重影响产品销售。长期以来,人们对葡萄成熟后期和贮藏期间果粒脱落和乙烯的关系进行了广泛深入的
我国上市银行的股权结构和绿色信贷一直是时下热点问题,公众及媒体也一直对规模较大的上市商业银行十分关注,我国商业银行的股份改革政策也一直在持续推行,但是仍旧存在股权
黄曲霉是一种常见腐生真菌,能够对粮食作物,如花生和玉米造成严重危害,造成这种危害的根源主要是其次生代谢产物黄曲霉毒素。黄曲霉毒素在自然界中普遍存在,是一种具有极强毒
[目的]作为食管癌病人复发和转移的一个重要因素,c-Met的过表达被认为是接受放化疗患者治疗失败的重要因素。虽然c-Met已经被证实对肿瘤细胞的生存、增殖和迁移能力是至关重
为研究所有匹配的整体性质,在平面二部图的全体完美匹配集合上建立了Z-变换图(也称为共振图),进而通过定向给出了全体完美匹配集合上的分配格结构,并证明分配格的有向或无向H