基于网络表示学习的推荐算法研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:helen_shen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着商品、新闻、社交等商业平台快速普及与发展,其数据信息呈爆炸式增长趋势,互联网用户面临着严重的信息过载问题。作为一种应对信息过载问题的有力工具,推荐系统根据用户的历史行为和属性信息,预测用户对给定项目的偏好,以便更准确地掌握用户需求,向用户推荐其感兴趣的项目,提升商业平台的经济效益。目前,针对推荐系统的研究聚焦于如何利用商业平台内的大量辅助数据,提升推荐系统性能。针对现有推荐系统存在的用户、项目特征刻画不准确等问题,本文开展了基于网络表示学习的推荐算法研究。论文的主要工作包括:1、针对现有局部低秩矩阵分解算法无法有效构建子矩阵的问题,提出一种基于网络表示学习的局部矩阵分解算法,根据用户间\项目间表示向量的相似性,从评分矩阵中构建多个局部低秩的子矩阵,在子矩阵中进行矩阵分解算法获取更准确的预测评分。该方法首先将用户社交数据、用户与项目的交互数据构建为异构信息网络,用以表示用户、项目之间的多种关系。然后,设计一种应用于异构信息网络的表示学习算法,训练得到用户、项目的表示向量,将表示向量相似性满足阈值的用户、项目,构建为同一低秩子矩阵。最后,在每个子矩阵中进行矩阵分解算法,获取子矩阵中用户对项目的预测评分,将子矩阵中预测评分的加权均值作为最终的预测结果。所提算法引入用户社交数据构建异构信息网络,社交数据的加入缓解了由于交互数据的缺失导致的用户特征表征不准确问题。根据从信息网络中学习的表示向量,能够更有效地构建子矩阵。在两种真实数据集上进行实验,结果表明:所提方法在局部低秩的子矩阵上进行矩阵分解算法,能够获得更精确的预测结果。2、针对现有基于协同过滤的推荐算法无法准确地获取用户、项目特征的问题,本章提出一种基于元路径表示学习的个性化推荐算法。该算法首先根据用户的历史行为,在社交数据中过滤掉用户间偏好差距较大社交关系。然后,将过滤后的用户社交数据、项目属性数据、用户与项目的交互数据建模为异构信息网络。采用基于元路径的表示学习从异构信息网络中分别得到用户、项目的表示向量。为了拟合用户、项目表示向量,提出连接矩阵的概念,将用户表示向量、连接矩阵、项目表示向量的內积作为预测评分。利用梯度下降算法,通过已有评分对连接矩阵进行训练,使得预测评分不断逼近已有评分,得到推荐模型。通过对用户社交关系进行过滤,减少了偏好不一致用户社交关系对算法的影响。多种语义的元路径丰富了用户间\项目间的关系数据。基于元路径表示学习的算法得到表示向量,融合了不同语义环境下用户、项目的关系信息,更准确地获取了用户、项目的特征。实验结果表明:对社交关系进行过滤,并利用异构信息网络下的表示向量构建推荐算法,有效地提升了算法预测的准确性。3、针对异构信息网络中基于元路径表示学习算法存在的数据丢失问题。提出一种融合多种实体关系的个性化推荐算法。该算法首先通过用户社交数据、项目类别数据、用户对项目的评分数据分别构建两种实体网络:用户关系网络和项目关系网络。其次,使用网络表示学习获取用户和项目的向量表示。然后基于已知标签数据训练用户与项目的映射矩阵,并用映射矩阵计算用户对项目预测评分。提出的算法通过两种关系网络有效地融合了不同类型的多类型数据信息,从多个角度描述了实体间的关系,并利用映射矩阵有效地拟合了用户、项目表示向量。在两个真实数据集上对所提算法进行了实验验证,结果表明:提出的预测算法与已有方法相比,评分预测的精确性得到了提升。4、针对社交网络中缺乏对边信息的利用导致用户行为预测不准确的问题,提出一种基于网络表示学习和标签传播的用户行为预测算法。该方法首先通过用户的关注列表构建用户社交关系网络。第二,从用户提及的内容数据中提取用户的偏好特征,并计算用户偏好特征的相似性来确定用户间的关系强度。根据关系强度对用户社交网络中的边进行赋权,同时确定了表示学习中节点采样的随机游走转移概率,并训练得到用户的表示向量。最后,基于用户的表示向量的相似性计算用户间的标签传播概率,通过迭代的标签传播算法预测用户的标签。所提算法定义了用户社交网络中的边信息,准确地描述了用户间的关系,训练得到的用户表示向量有效地表征了用户。实验结果表明:在腾讯和新浪两种微博数据集上进行实验,和现有的预测算法对比,所提方法能够提高用户行为预测的准确性。最后,对全文的工作进行了总结,并指出了需要进一步研究、解决的问题。
其他文献
老字号根植于城市的发展变迁之中,通常蕴含着光辉的历史、深厚的文化和一代人的记忆。随着新媒体时代的到来,老字号品牌传播因对使用新媒体传播的意识不足、忽略新媒体内容建设、新媒体受众维护缺失等问题陷入困局。本文立足新媒体时代的传播背景,通过对114家辽宁省中华老字号和辽宁省老字号的研究,分析辽宁省老字号品牌传播陷入困局的原因,并为之分析出切实可行的突围路径。
中国西南喀斯特是全球三大喀斯特分布面积最大、最集中、喀斯特发育最强烈的地区,以滇、黔、桂三省区为主。滇黔桂地区降水丰沛,但基岩透水性强,导致地表水资源缺乏,土壤水分是该区域植物生长的主要限制性因子。由于其特殊的地质结构,该区域地形起伏大,土层浅薄且土被不连续,土壤水分空间异质性强,土壤水分变化的影响因素复杂多样。然而,目前滇黔桂地区土壤水分空间格局和时间变化过程的主要影响因素仍不明晰。因此,本文首
溶解性无机碳(DIC)是流域内碳迁移转化的重要组成部分,河流中DIC的运输具有重要的生物地球化学意义。我国西南喀斯特地区是全球碳循环研究的重要场所,特别是碳源汇能力较强的河流、湖泊、水库等水域生态系统,其碳迁移情况受到更多关注。为了更准确、全面地了解喀斯特地区水库的DIC变化特征,认识其影响因素,研究选取了典型喀斯特高原地区深水型水库平寨水库为研究对象,于2020年1月(冬季)、5月(春季)、7月
施秉喀斯特世界自然遗产地,具有极其重要的突出普遍价值,由于其脆弱的喀斯特生态环境以及夏季暴雨洪水的发生,其境内洪水肆虐,且因人类对土地的不合理利用导致植被被大面积破坏以及大量的土壤流失,这也将加速土层本就相对较薄弱的喀斯特地区的石漠化进程。根据收集的施秉境内黄洲河流域2014~2018的降雨数据,分析流域年内月平均降雨量的变化情况、短历时最大降雨量的变化情况以及次雨洪过程的变化趋势。根据在黄洲河流
本文以稀土掺杂Ln2Sn2O7(Ln=La,Gd,Y),Ln2Zr2O7(Ln=La,Gd,Y)以及Sr3P4O13等三种复合氧化物上转换发光材料为研究对象,采用高分子网络凝胶法和共沉淀法作为合成方法,用X射线衍射(XRD)、扫描电镜(SEM)、红外光谱(FT-IR)、紫外可见漫反射光谱(UV-Vis)和上转换荧光光谱(UPL)等多种表征手段对制备样品的物相结构、微观形貌和发光性能等进行研究。系统
本文采用贵州省19个气象站近36年(1980-2015年)春季的逐日平均气温、最高气温、最低气温、降水量、平均相对湿度和平均日照时数及平均相对风速等数据,首先采用聚类分析法将该地区进行地貌类型分区处理,即根据地貌切割程度,在各气象站区域内确定其地貌类型并进行数字化,然后再按气象区域各地貌类型的百分比,借助SPSS软件经过Q型统聚类分析将整个贵州省分为四个地貌类型区(深切割岩溶区、浅切割岩溶区、深切
智慧城市是城市信息化的高级阶段,包括智慧交通、智慧物流、智慧家居以及智慧医疗等应用领域;其根基在于对城市方方面面的“透彻感知”。基于物联网中的传感器从环境和人类活动中获取海量的数据,成为支撑智慧城市应用的基石。但在城市环境下大规模地部署物联网硬件及软件设备,面临着高昂的部署以及维护成本。参与式感知的出现,使得人们可以基于不同类型的智能移动终端与相应的应用程序结合,对城市物理环境、社会环境以及个体状
重力场探测技术随着时代的发展而进步,重力场测量呈现了从地面、海洋、航空到太空的多手段、多类型和多层次的信息获取模式。利用航空重力测量确定地球重力场可归结为求解一类特殊的物理大地测量边值问题。为此,本文围绕航空重力边值问题、扰动重力数据融合处理与应用、重力场调和分析和超高阶重力场模型构建等开展了相关研究和探索,主要工作与创新点有:1.针对豪汀积分中央区奇异性问题提出了一种豪汀积分中央区改正方法,研究
国民经济的飞速发展以及国防建设的需要,加快了地理信息数据库建设的进程。地理信息数据的应用范围不断扩大,应用层次不断深入,各领域各行业对于现势性好、语义一致的地理信息数据集的需求十分迫切。与此同时,由于应用需求不同,地理信息数据相关生产部门工作相对独立,多源矢量数据语义不一致性问题开始日益凸显,严重影响了地理信息的共享与使用。消除多源矢量数据的语义异质性既是建立统一地理信息数据集时面临的主要任务,也
改革开放以来,中国的国家实力得到了迅速增强,但相比于硬实力的快速提升,自身的软实力水平仍然不高。作为国家软实力重要标志的国家形象在国际竞争中扮演了重要角色,塑造良好的国家形象成为谋求和维护国家利益的重要手段。阿富汗是“一带一路”倡议沿线国家之一,其他国家提出的不同版本的“丝绸之路”计划对阿富汗也有着不小的吸引力和诱惑力。“一带一路”的互惠互通不能只依靠援助经济发展、投资建设基础设施,还需要获得阿富