基于概率图模型的个性化推荐算法研究与并行实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:sprock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,很多电子商务平台逐渐兴起并提高了大众生活质量,但随着数据规模的爆炸式增长,正在使用推荐系统的互联网平台(如阿里巴巴、Paper Weekly等)面临着严重的信息过载问题,无法针对用户特点做有效的个性化推荐。由于传统推荐算法的模型表达能力不够强,而概率图模型同时具有概率论和图论的优势,故可使用概率图模型对推荐问题中各变量之间的依赖关系提供解释性更强的建模,但很多基于概率图模型的推荐算法在求解参数时仅使用朴素的零均值球形高斯先验分布,无法实现迭代式参数求解,因而对已有商品(in-matrix)推荐效果较差;其次,很多推荐算法无法解决冷启动问题,即刚进入系统的新商品(out-of-matrix)会由于没有任何购买历史而很难将其推荐给任何用户;此外,有些推荐算法虽然融合了社会化信息以缓解评分矩阵稀疏度过高的问题,但并未考虑用户间的信任曝光因素;最后,推荐算法的时间复杂度往往很高,程序运行效率偏低。为了解决上述问题,本文主要针对曝光矩阵分解算法(Exposure Matrix Factorization,Expo MF)进行研究,提出了两个改进的算法,主要工作如下:(1)提出基于变分自编码器的混合推荐算法(Variational Autoencoder-based Hybrid Recommendation,VAHR)。在Expo MF算法的概率图模型的基础上,使用吉布斯采样做参数的推断,从而将某参数在前一次迭代中得到的完整条件分布作为其下一次迭代的先验分布,依靠先验分布与似然函数之间的共轭关系直接得出后验分布的解析解,以此实现迭代式的参数推断;使用最大后验概率-期望最大化算法实现迭代式的参数估计,并分析两种求解方式的异同;通过变分自编码器抽取用户曝光向量的隐特征并重构,以此预测各商品对于该用户的曝光概率;利用以上推断出的参数训练得到一个可提取商品隐特征的变分自编码器,以此解决新商品的推荐问题。实验表明,VAHR与其他同类型的算法相比,对于in-matrix和out-of-matrix问题都能有效地提高召回率。(2)提出基于曝光的社会化推荐算法(Exposure-Based Social Recommendation,EBSR)。在VAHR算法的基础上融合社会化标签和社交信任关系两类社会化信息来提取用户和商品的隐特征,以缓解矩阵稀疏度问题;考虑到社交信任关系矩阵中的负反馈值可能受到用户之间信任曝光因素的影响,于是在使用用户-商品评分曝光隐变量的基础上进一步引入用户-用户信任曝光隐变量;在用户-商品评分及用户-用户信任关系两种观测变量的生成过程中引入校正偏置项,以实现可解释性更强的建模;最后使用吉布斯采样和最大后验概率-期望最大化算法迭代地求解参数,并分析两种求解方式的异同;考虑到EBSR算法中吉布斯采样的并行性,利用Java提供的并行框架Fork/Join优化算法的运行速度。通过在Last.fm以及爬取得到的知乎数据集上的实验表明,EBSR与同类型的算法相比能有效地提高评分预测精度,并通过并行实现可达到较高的加速比。
其他文献
获取大型的带注释数据集是非常昂贵的,需要从现有标签的数据集到未标记的数据的转移过程。然而,特定应用程序相关的数据通常与公开可用的数据集不同,因为这些特定的数据是来自不同的领域。虽然域自适应在利用源领域的标记数据来学习未标记目标领域的精确分类器方面已经取得了巨大的成功,但是这些域自适应算法都是在源域与目标域具有相同类别,利用标签丰富的源域信息对标签稀少且分布相似的目标域数据进行迁移学习。然而,由于现
随着中国传统文化逐渐走向世界,在数字化平台传播、宣传、弘扬中国非物质文化遗产也成为了学界和产业界共同努力的目标。因此,以中国传统文化、传统艺术、非遗文化为主题的应用程序层出不穷。而江苏宜兴的传统紫砂文化在数字化平台上一直处于发展的初期,其界面以图文介绍和商品交易为主要功能,界面的视觉设计也显得相对简单。在以文化传播为主要功能的应用程序案例的借鉴下,在图形化界面和动画交互界面的发展现状下,论文试图通
专利文本记录了大量的科技成果信息,受到了人们的高度关注。随着互联网的快速发展,专利文本数量不断增多,如何从纷繁冗杂的专利文本中高效地抽取其中关键特征一直都是自然语言处理的基础研究问题。然而,现有的面向专利文本的特征抽取还未取得十分令人满意的效果,对专利文本特征抽取的准确度需进一步提高。针对以上问题,论文提出一种无监督的融入公共知识的TextRank专利关键词提取模型,该模型有效地利用了先验公共知识
随着我国汽车制造和智能交通领域的发展,汽车智能化水平逐年提升。在汽车价格平民化与道路条件标准化的背景下,汽车已成为人们工作和生活中的重要工具。然而,汽车的大量使用也产生了一系列的负面影响和安全隐患,例如上下班高峰严重的交通堵塞,频发的交通事故等。如何通过安全辅助驾驶系统预防和减少交通事故的发生成为了学界日益关注的核心焦点。其中,基于双目视觉的障碍距离检测和车道线检测是该领域的热点问题,本文设计开发
伴随着科技的进步与计算机视觉技术的飞速发展,基于深度学习的目标检测技术得到了越来越广泛的应用,在各个领域都展现出蓬勃生机。与此同时,也出现了越来越多样化的数据形式,这给目标检测任务带来了难点。可见光单模态数据在部分特殊情况下提供的信息不够充足,基于可见光单模态图像的目标检测任务可能会出现准确率下降的问题,然而越来越多样化的数据形式给这个问题带来了转机。使得可以通过对不同模态的图像数据进行融合的方式
问答系统在生活与工业中有着广泛的应用,比如智能客服、智能音箱等。但目前的问答系统大都是静态的,一旦训练并部署后,无法再进行知识更新,用户与问答系统的交互语料也没有得到充分利用。即使获得了交互预料,但由于深度神经网络的灾难性遗忘特性,直接使用获取的新交互语料数据训练模型,会导致模型在之前数据上的表现变差。针对以上问题,本文构建了持续学习问答系统框架,处理并存储用户交互信息,并提出了持续学习的关系抽取
PCB(Printed Circuit Board,印刷电路板)是电子产品的核心部件,广泛应用于现代社会的各类行业,市场需求量广大。PCB上元器件的缺陷检测是PCB生产的必经环节,而电子元件小型化、高集成化的趋势以及SMT(Surface Mounting Technology,表面贴装技术)的发展使得PCB上贴装的元件密度更大尺寸更小,传统人工检查的方式已无法满足工业上对于检测精度和速度的要求。
随着中国影响力的扩大和中华文化的传播,全球各地出现“汉语热”的风潮,越来越多的国际友人开始学习汉语。其中,来华留学生对于汉语学习有着必然需求,语言是交流的基础,而在实际生活中,来华留学生存在因语言不通、交流障碍而导致的留学生活体验差等问题。留学生承担着传播中华文化,扩大中国影响力的作用,因此,留学生汉语学习体验需要设计师的深入研究和实践。在本课题以情境认知理论为理论基础,首先对情境认知理论和用户体
不同的线条样式能传递不同的情感,探究线条及其衍生形式的情感表达模型能够揭示影响情感表达的根本因素,发展更多情感表示形式,并促进情感表达软件的开发与人工智能对不同表达形式的情感识别。本文的工作分为以下四个方面:1.探究线条不同样式与情感之间的映射关系。为了探究不同样式线条的情感表达,编写程序创建了87种样式的静态水平线条,采用27个情感效价词汇与2个情感唤醒度词汇,招募测试者进行线上测试,为每种样式
视频监控是“天网”系统的重要组成部分,也是近年来治安防护水平提高的重要推动力之一。随着视频监控设备的普及率逐年上升,监控系统智能化的需求也日益提升。目前,国内大多数的视频监控系统都需要人工值守,安排监控人员24小时轮班来实现监管。通常,每个监管人员需要同时监控多个显示屏,存在效率低、抗干扰能力差、容易受监管人员主观意识影响等问题。随着科研人员对图像处理、视频分析、行为识别等技术的研究越发深入,智能