基于两步预测的电影推荐系统的研究——以豆瓣电影为例

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:daTyrant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的信息时代,推荐系统在各行各业都扮演着一个重要的角色。实现精准营销,是推荐最终的目的。根据用户的历史活动记录,尽可能地挖掘出用户相关的行为模式以及商品表现出来的某种特性等信息,构建相应的用户画像,精准的定位用户的兴趣所在,根据用户的兴趣所在为用户匹配其最可能感兴趣的商品,从而实现为最合适的人推荐最合适的商品。以中国为代表的电影强国,推荐系统的研究在电影行业领域也相当重要。本文关于电影推荐系统的研究既有一定的理论意义,也有一定的应用价值。从理论意义上看,针对特征挖掘的手段,提出的改进算法的角度可为其他研究提供一定的参考;从实际的应用价值上来看,可以帮助改进电影推荐系统,实现更高效的营销。目前电影推荐系统的研究,存在的主要问题为:(1)针对电影评论数据,对不同方法的适用性条件缺少比较和探讨,存在一定误用的可能;(2)对特征的挖掘还不够深入,没有同时结合文本数据和浏览数据去做更多特征的挖掘;(3)传统的电影推荐仅采用一步预测即评分预测,不足之处在于其包含了观影可能性低的观众的评分预测。针对存在的问题,本文的核心工作是利用文本数据对不同方法的适用性条件进行比较,同时结合图嵌入算法进行特征的深入挖掘,得到主题特征和图嵌入特征作为特征学习集,最终提出了两步预测的电影推荐系统。首先,本文针对电影评论数据分别利用Latent Dirichlet Allocation主题模型(假定每篇文章由一系列主题构成,每个主题对应的词分布不同,通过吉布斯抽样生成每篇文档)和主题词嵌入算法(word2vec算法结合聚类算法)进行主题挖掘比较。由于Latent Dirichlet Allocation(LDA)主题模型通过词与词之间的共现关系实现对主题的挖掘,LDA主题模型在短文本数据上存在一定的不足。而主题词嵌入算法对文本数据的要求不高,不需要提前对短文本数据进行聚合处理。通过两者算法的比较,有如下结论:(1)主题词嵌入算法在主题挖掘的层次上比LDA主题模型更加细致;(2)主题词嵌入算法可自动提取相应的停用词,可为构建专业停用词词库提供一定的参考;(3)主题词嵌入算法提取的主题特征对推荐系统的改进效果更好。接着,利用图嵌入算法(以用户和电影为节点构建网络,通过随机游走抽取序列获取节点的图嵌入向量)对特征进行更深入的挖掘,发现挖掘出的特征在相似用户或相似电影上表现出特定的模式,更多地考虑了不同用户的浏览记录的交互信息,并且挖掘出的特征在后续两步预测的推荐方法中的第一步预测任务表现最优。最后,针对传统的一步推荐(仅通过评分预测进行推荐)的不足,提出了两步预测的推荐方法,即第一步为用户点击电影的概率预测,第二步为用户对电影的评分预测,将预测的概率值与预测的评分相乘,得到最终的评分。按照最终评分的排序,得到相应的推荐列表。通过两步预测推荐方法与传统的一步推荐方法进行相应的对比发现,两步预测推荐方法取得了更好的表现,也说明了本文提出的两步预测推荐方法的合理性。本文实现了对文本数据的深入挖掘,对不同方法的表现和适用性上进行了一定的探讨,结合图嵌入算法进行特征的深入挖掘,可为其他研究提供一定的参考,比如其他场景下电商平台针对用户评论数据的挖掘。而且本文提出的两步预测推荐方法相对于传统的一步推荐方法表现更好,显著的提高了推荐效果。
其他文献
经济预测主要是减少不确定性因素对工业经济发展影响的一种科学认识活动,通过对统计指标变化的预测来达到预判行业整体发展速度、质量的目的,而计算同比增长率是衡量统计指标变化的主要方法。统计局在进行行业宏观经济指标的统计时常以规模以上企业为统计范围进行全面调查,而规模以上企业基数是一个变量,不同统计周期对应的规模以上企业存在隐性变动,故对规模以上企业经济增长预测时,必须充分考虑到基数变动带来的影响。本文以
学位
现如今,青光眼是使患者失明的主要眼部疾病之一。从眼底图像中得到的杯盘比指标是诊断这一眼部疾病的重要依据。其中杯盘比是根据图像中划分出的视盘和视杯区域的最大垂直直径计算得到,而这两个区域的精确分割通常需要有多年经验的眼科专家来完成。现实中人工分割效率低下,因此借助模型完成此类分割任务具有很重要的实际应用价值。先前对眼底图像分割模型的研究往往追求在单个数据集上的分割效果。但是,对于由不同眼底照相机得到
学位
随着时代的发展,互联网科技发展突飞猛进,互联网和大数据带来的问题是由于信息过载而导致信息利用率低。在这种情况下,对于推荐系统的研究逐渐吸引人们的目光。推荐系统可以向用户推荐他们可能比较感兴趣的东西,通过进一步探究用户的行为,了解不同用户的个性化需求,把大量的长尾商品推荐给可能对其感兴趣的用户,不仅节省了用户的时间成本,同时也为使用推荐系统的网站本身带来了更多的利益,甚至可以推荐给用户一些他们感兴趣
学位
在世界高速发展的今天,石油作为战略资源其重要性不言而喻。因此确保石油高效、稳定的开采有着重要的意义。在石油开采过程中,结蜡问题一直是一个挑战。数据显示我国原油含蜡量高,据统计,含蜡量超过10%的原油几乎占所有产出原油的90%,而且大部分超过20%。高含蜡量也就意味着更高的结蜡风险,以及更高昂的清蜡成本。因此有效的预防结蜡对原油开采公司有着重要的意义。为帮助原油开采公司探索结蜡规律,预防结蜡问题,节
学位
随着互联网及其相关技术的发展,人们在享受网络带来的便利的同时,也面临着严重的信息过载问题,在面对海量信息的同时,不仅难以获得对自己有用的信息,也降低了自己的浏览体验。推荐系统是解决信息过载问题的有效手段,它能从用户的历史记录里学习到用户的偏好信息,并基于此预测用户在未来的信息获取需求,做出个性化的推荐。推荐系统不仅大大提高了用户获取有效信息的效率,提高了用户的使用体验,也给使用了推荐系统的企业带来
学位
在信息检索系统中,当用户输入查询后,需要快速返回相应的信息。在类似于知乎、百度知道等问答社区中,当用户提问时,若能快速匹配到最为相似的问题,并返回已有的解答给用户,可以防止重复提问的同时,也可以提高用户的体验。在智能客服或问答系统中,需要对用户的意图进行准确地识别,有效地解决用户的诉求。在上面举的例子中,都绕不开一个最为基础且核心的问题,就是文本语义的相似性判别。以人工智能技术为基础的智能客服系统
学位
随着科技的进步,新闻可以在很多途径下进行传播,大家可以通过各种社交工具以及新闻网站查看到最新的资讯。在这些社交网站上,用户还可以在推送的新闻底下发表自己对此事的看法。发表者有时会用匿名方式进行消息的发布,这就导致了目前网络上各种虚假新闻的出现。这些虚假新闻有如下一些特点:规模大、传播速度快、造假手段多种多样等。对于一些恶意的虚假新闻严重时会造成大众的的恐慌,对企业也会带来一定程度的危害,甚至会造成
学位
近年来自然语言处理技术受到了学术界及工业界的广泛关注,人机对话技术作为自然语言处理技术中重要的应用之一,不断有学者对其进行研究。人机对话系统中一个关键的任务为意图识别,该任务要求聊天机器人能够对用户的输入内容进行语义理解,并将输入内容分类到正确的类别当中。意图识别模块的性能优劣将直接影响人机对话系统的质量好坏。提高人机对话系统对用户输入文本的意图识别能力,能更准确、更高效的服务用户,同时减轻人工客
学位
机器阅读理解是自然语言处理领域中问答系统任务的主要研究方向之一,其目标是结合给定的文本来得出所提问题的答案,属于监督学习任务。由于在传统的问答系统中,答案的提取方法过于繁琐,大量的信息无法得到有效利用,多数情形下难以高效地从原始文本中提取结构化的信息。而机器阅读理解技术则可以更好地提取原文中与问题有所关联的内容,从而较为精确地给出与问题匹配的答案,不仅可以促使问答系统变得更加健全,同时还能为实现高
学位
基于L.S.Vygotsky提出的“中介”概念,通过对亲子阅读死亡教育绘本的过程进行观察和对死亡教育绘本进行图文分析,探究绘本中“死亡”意义的多模态建构对儿童认知和情感的调节作用。研究发现,绘本中的“死亡场景”有助于儿童了解死亡的生物属性,并影响他们的死亡话语实践;“死亡”的呈现方式引起孩子对死后世界的疑惑,但多数故事类绘本对死亡的社会文化实践介绍甚少;绘本图文间关系及其建构的“感情”避免儿童出现
期刊