基于LDA模型的豆瓣电影推荐算法研究

来源 :杭州电子科技大学 | 被引量 : 2次 | 上传用户:pdswzjhxr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的发展,社会上各种文本类数据日益增多,网络上的信息量也在不断增大,由于信息过载和噪声数据增多等原因,人们越来越难以高效的发现喜欢的作品。因此,针对每个用户的个性化推荐算法得到了越来越广泛的认可。与此同时,中国电影市场也在快速发展,看电影成了更多人休闲娱乐时的选择,而人们在选择观看的影片时,往往会参考一些有影评的网站,并且在观影后也喜欢在网络上发表一些感想和看法,而豆瓣网作为一个比较权威的影评网站,许多人喜欢在上面发表影评和参考评分,使得豆瓣网拥有较多且较为真实的影评数据,因此,本文使用豆瓣网影评数据来对个性化的电影推荐算法进行研究。常规的个性化推荐算法采用余弦相似度公式计算待推荐电影特征和用户偏好特征之间的相似度,并以此作为用户对待推荐电影的感兴趣程度。而本文利用豆瓣影评数据进行分析研究,提出了一种基于用户兴趣的改进的电影推荐算法。本文通过网络爬虫技术从豆瓣网上爬取了研究所需要的数据,其中包括涉及258个用户的22104条电影评分数据,以及涉及1798部电影的17271条影评文本数据。在获取数据后,首先对数据进行数据清洗和预处理,并在对影评文本进行文本分词前,对原有停用词典和分词词典进行重新构建并扩充,即在停用词典的构建中,先进行词性标注,只保留名词作为电影主题分析的特征词,同时加入了一些普适性较强的高频词,通过对停用词典的扩充缩减了特征词库的大小、提高了主题的识别效果,并在分词所使用的分词词典中,载入了提高影评主题识别效果的历史名人词语。基于此,使用Jieba分词对影评文本进行文本分词。然后运用LDA建模分析方法,对完成分词的影评文本数据进行主题分析,得出豆瓣电影的主题类别和内容,以及每条评论文本的偏好主题分布,进而得出每部电影的特征主题分布,随后又根据用户的电影评分列表和评过分的每部电影的特征主题分布得到用户的偏好主题分布。接下来,本文对用户关于各个主题的实际感兴趣程度进行了具体分析,结合用户的偏好主题分布和全部电影的平均主题分布,新构建了一套计算用户对不同主题实际感兴趣程度的算法以及用户对每部电影感兴趣程度的算法,然后运用改进的电影推荐算法计算用户对待推荐电影的预测分数,并将其与常规的电影推荐方法进行对比。实验结果显示,本文所提出的基于用户兴趣的改进的电影推荐算法推荐效果更好。基于此,为了进一步提升模型的推荐效果,本文又加入了电影好评度指标和电影热度衰退指标构建了最终的电影推荐算法,并且根据结果对衰减系数的取值进行了选取,整体上进一步提升了模型的推荐效果。总的来说,本文提出的改进的电影推荐算法提高了电影推荐系统的效果,有效提高了用户对网站的使用体验,且对网站运营方具有实践性指导意义。
其他文献
深紫外光学薄膜在准分子激光器、深紫外光刻机中发挥着重要的作用,它是保证系统达到设计要求的必要条件,也决定了系统的稳定性以及使用寿命。伴随着集成电路的发展、节点的提
冯契作为中国20世纪杰出的哲学家和中国哲学史家,站在马克思主义哲学的立场建构了自身的“智慧说”体系,对中国哲学相关问题提出了自己的独特见解。在对中国哲学研究的过程中
针对冷轧厂连轧机组钢卷步进输送机钢卷离线称量存在的问题,对钢卷步进输送机进行改造,实现钢卷在线称量。
多语言多文化背景下官方语言的推广和弱势族群母语的传承和维护是一对矛盾。马来西亚的经验表明官方语言推广中语言地位规划优先于本体规划,地位规划的实现是一个缓慢的过程
目的总结归纳复发性流产(recurrent spontaneous abortion,RSA)患者的临床资料,并分析RSA可能的社会心理相关危险因素,为其临床诊疗及干预提供科学依据。方法按照纳入与排除
开发性移民政策目标的实现,不能仅止于对水库移民提供补偿,还需建立完善的水库移民社会保障制度。而当前水库移民社会保障制度构建存在着双重错位倾向的法理困境。为了摆脱困
以中值定理为工具,给出了利用一阶偏导数判定二元函数极值的方法。
如今,电脑游戏在全世界范围内流行起来,它已经对学校教育造成了影响,为了探索游戏的教育潜力,一些专家学者提出了教育游戏的概念及应用,他们通过研究发现将游戏应用到课堂教
随着新媒体时代的来临,社交媒体用户群体激增,短视频媒体发展势头迅猛,这些都为电影产品的线上营销提供了新的契机,其对于电影产品的宣传方式、宣传效果及宣传策略等都带来了
防治甘薯黑斑病采用综合措施可以获得显著的效果:1.窖藏期采用适时收刨,掌握“四轻”(轻刨、轻放、轻运、轻入窖),“五不入窖”(病薯、虫咬、破伤、镢伤、露头青),可以将出窖