基于隐式反馈的深度矩阵分解推荐系统研究——以知乎用户行为数据为例

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:iiiii119119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是现代社会处理数据和信息的重要方法,基于矩阵分解方法的推荐模型可以有效的提高推荐系统性能,但是它会受数据稀疏和冷启动问题的困扰。在真实业务场景里,往往难以收集用户对物品的直接评分,但用户行为等隐式反馈能在一定程度上反映用户兴趣,且易于记录和存储,可以缓解数据稀疏问题。随着深度学习的兴起,对文本信息的挖掘技术越来越成熟,给用户预配置文本信息,也可以丰富推荐系统输入数据来源,并克服给新用户推荐物品时的冷启动问题。基于此,本文从用户行为研究和深度学习提取文本特征两个角度,将基于用户行为的样本置信度加权方法和深度学习提取用户文本特征的方法一起融入矩阵分解推荐模型,提高了推荐系统的性能。具体地,本文将卷积神经网络模块加入用户隐特征向量的先验概率分布假设中,并将基于用户行为的样本置信度信息加入损失函数中,提出了一种混合推荐模型。该模型通过加权交替最小二乘算法来迭代求解用户与物品的隐特征,文中也推导出了混合推荐模型中用户特征向量与物品特征向量的更新公式。实证分析部分,本文使用了知乎真实业务场景下的用户行为数据,实施top-K推荐任务,此场景下给用户推荐的对象是回答。先对影响用户行为的所有用户相关指标以及回答相关指标进行预处理和描述性统计分析,然后使用逻辑回归模型,筛选会对用户点击行为是否发生产生显著影响的特征,并得到行为判别模型。实证表明,交互次数、搜索次数、关注用户数、关注话题数、用户提出的问题数等13个指标的影响显著,判别模型的综合判别准确率达到了73.4%。在构建矩阵分解推荐系统时,混合推荐模型将用户近十天的历史搜索记录作为预配置文本信息,将逻辑回归模型的预测值作为低置信度样本的评分,并依据行为发生次数确定观测到的点击行为样本权重。实证结果表明,在top-K的标准下,本文使用混合推荐模型,对样本数据集里的632个用户推荐2222个不同回答,在推荐列表长度K分别为3、10、20、40、60、80时,推荐准确率调和指标F1分别达到了0.057、0.069、0.066、0.057、0.053和0.046,推荐列表排序指标MRR分别达到了0.080、0.097、0.099、0.101、0.108和0.109。相比较而言,如果使用普通的矩阵分解推荐模型,其推荐准确率调和指标F1分别只有0.025、0.037、0.038、0.033、0.030和0.027,推荐列表排序指标MRR分别只有0.034、0.049、0.049、0.054、0.055和0.052。混合模型在不同推荐列表长度下,不管是推荐的准确性,还是给出的推荐列表中物品排序的合理性,都具有更好的效果。
其他文献
随着我国社会主义市场经济的发展,证券市场的规模日益扩大,已成为国民经济的重要组成部分。实体经济很大部分是由大企业,特别是上市公司撑起来的。然而,由于中国开始发展经济的时间比较晚,市场上实施的监督、管理的举措和方法都需要增强。所以,准确预测和控制上市企业的财务困境是一种现实而又迫切的需要。上市公司财务困境预警模型的建立对有关监管部门、公司高层和股东都发挥着重要作用。本文以上市公司为研究对象,参考证监
学位
因近些年来人工智能和大数据的快速发展,以第三方移动支付平台为主要代表的在线支付模式已成为人们主流支付模式之一,随着移动支付规模的扩大,各类型的支付欺诈行为也日渐增多,对移动支付平台和内部生态、消费者造成了巨大损失,因移动支付欺诈有其隐蔽性、实时性、变化性,普通欺诈检测方法难以有效检测出问题,而目前人工智能欺诈检测技术日趋成熟,应用机器学习与人工智能技术解决金融欺诈检测问题成为近年来相关问题研究的主
学位
2021年7月24日,中共中央办公厅、国务院办公厅印发《关于进一步减轻义务教育阶段学生学业负担和校外培训负担的意见》,“双减”政策的出台,旨在减轻学生和家长的教育负担,强化学校作为教育主阵地的作用,对教培机构加强治理,改善教育内卷的现象。“双减”政策对学生、家长、教师以及校外培训机构人员的生活的方方面面都产生了影响,在网上也引起网民们该政策的高度关注。同时由于大数据时代的到来,信息的传播变的更为迅
学位
随着国民文化自信、民族自信全面增强,传统文化的再次活跃引发“国潮热”。在这股“国潮热”下,外来国际品牌前进的脚步并没有停下,严峻的市场竞争促使国内运动品牌不得不再次思考如何在国内市场“站稳脚跟”,提高自身的竞争力。在线评论是一个低成本获取用户反馈的渠道,通过评论内容,可以获取用户对商品各个属性的情感倾向,可以为消费者购物提供参考和帮助商家提高产品质量。因此本文选取了国内运动品牌代表李宁和国际运动品
学位
经济全球化的逐渐深入,各国的发展非常迅速,国民经济发展较为迅速,带动了房地产行业的发展,房地产行业属于资金密集型产业,公司负债率较高,由于房价居高不下,居民的收入跟不上房价上涨的步伐,因此许多居民处于买不起房的处境,导致房地产行业大量房地产库存积压,产能过剩,我国的金融市场不稳定,缺乏一套完善的金融管理机制,房地产由于房屋销售过少,资金不够偿还债务,导致公司周转存在问题,存在较大的财务风险,加大了
学位
“十四五”规划明确提出产业数字化转型,积极推动数据赋能全产业链。中国信息通信研究院发布的《中国数字经济发展白皮书》显示,2020年我国数字经济规模达39.2万亿,占GDP比重为38.6%,同比增长了9.7%,数字经济总量跃居世界第二。国家统计局公布2021年前三季度与数字经济相关的高技术制造业、信息传输、软件和信息技术服务业均领跑产业发展,数字经济是经济增速发展的重要推动力量。货运行业的数字化转型
学位
改革开放四十余年来,我国的经济社会进步,收获了重要成果,人民民众生活水平明显提高,满足了生活物质条件,提高经济增长的效益成为新目标。疫情当下,国内经济发展面临重大压力。在这种背景下,政府支出在稳定宏观经济方面的作用和责任重大。基于以上情况,本文从全国和东中西部地区两个角度出发,选取人均实际GDP的对数作为被解释变量,城镇登记失业率的对数和实际固定资产投资额占实际GDP比值的对数作为控制变量。关于我
学位
互联网时代信息爆炸式增长、知识传播速度加快等因素给整个社会带来了海量的信息。但是,大多数信息知识都很宽泛、缺失针对性,呈现碎片化的形式进而导致人们无法精准有效的获取自身所需。在此背景下,知识付费应运而生,让人们摆脱普遍存在的知识焦虑,满足现代人的精神需求。然而,随着知识付费行业规模的不断扩大,付费产品价格定价虚高、知识付费平台恶意竞争等问题的出现让高歌猛进的发展热潮逐渐消退,而且出现了越来越多的质
学位
我国经济高质量发展概念于2017年第一次被提出,在十九届五中全会,针对中国当前经济发展阶段、环境、社会要求的重大转变,明确提出了“十四五”新时代的中国经济发展,要以促进高质量发展为主体的科学判断,更是把经济高质量发展摆在前所未有的战略性地位高度。目前学术界对高质量发展的研究多是以“五大发展理念”和社会矛盾为基础,或采用单一指标代表。本文在前人研究的基础上,基于“十四五”纲要,充分考虑中国现实基础和
学位
由于投资者的时间和精力都是有限的,所以在进行投资决策时投资者只会被自己所关注到的信息所影响,并且股票市场信息具有不对称性,这往往会使得股票市场收益率出现异常波动。随着互联网技术的发展,投资者信息来源渠道逐渐多样化,网络搜索信息能够直接反映出投资者的搜索需求,同时也能够在一定程度上反映出投资者进行投资决策时的关注重点和方向。基于以上研究背景和启发,本文探究了投资者关注对新能源汽车概念股收益率产生的影
学位