论文部分内容阅读
随着互联网科技的发展,社会上各种文本类数据日益增多,网络上的信息量也在不断增大,由于信息过载和噪声数据增多等原因,人们越来越难以高效的发现喜欢的作品。因此,针对每个用户的个性化推荐算法得到了越来越广泛的认可。与此同时,中国电影市场也在快速发展,看电影成了更多人休闲娱乐时的选择,而人们在选择观看的影片时,往往会参考一些有影评的网站,并且在观影后也喜欢在网络上发表一些感想和看法,而豆瓣网作为一个比较权威的影评网站,许多人喜欢在上面发表影评和参考评分,使得豆瓣网拥有较多且较为真实的影评数据,因此,本文使用豆瓣网影评数据来对个性化的电影推荐算法进行研究。常规的个性化推荐算法采用余弦相似度公式计算待推荐电影特征和用户偏好特征之间的相似度,并以此作为用户对待推荐电影的感兴趣程度。而本文利用豆瓣影评数据进行分析研究,提出了一种基于用户兴趣的改进的电影推荐算法。本文通过网络爬虫技术从豆瓣网上爬取了研究所需要的数据,其中包括涉及258个用户的22104条电影评分数据,以及涉及1798部电影的17271条影评文本数据。在获取数据后,首先对数据进行数据清洗和预处理,并在对影评文本进行文本分词前,对原有停用词典和分词词典进行重新构建并扩充,即在停用词典的构建中,先进行词性标注,只保留名词作为电影主题分析的特征词,同时加入了一些普适性较强的高频词,通过对停用词典的扩充缩减了特征词库的大小、提高了主题的识别效果,并在分词所使用的分词词典中,载入了提高影评主题识别效果的历史名人词语。基于此,使用Jieba分词对影评文本进行文本分词。然后运用LDA建模分析方法,对完成分词的影评文本数据进行主题分析,得出豆瓣电影的主题类别和内容,以及每条评论文本的偏好主题分布,进而得出每部电影的特征主题分布,随后又根据用户的电影评分列表和评过分的每部电影的特征主题分布得到用户的偏好主题分布。接下来,本文对用户关于各个主题的实际感兴趣程度进行了具体分析,结合用户的偏好主题分布和全部电影的平均主题分布,新构建了一套计算用户对不同主题实际感兴趣程度的算法以及用户对每部电影感兴趣程度的算法,然后运用改进的电影推荐算法计算用户对待推荐电影的预测分数,并将其与常规的电影推荐方法进行对比。实验结果显示,本文所提出的基于用户兴趣的改进的电影推荐算法推荐效果更好。基于此,为了进一步提升模型的推荐效果,本文又加入了电影好评度指标和电影热度衰退指标构建了最终的电影推荐算法,并且根据结果对衰减系数的取值进行了选取,整体上进一步提升了模型的推荐效果。总的来说,本文提出的改进的电影推荐算法提高了电影推荐系统的效果,有效提高了用户对网站的使用体验,且对网站运营方具有实践性指导意义。