论文部分内容阅读
随着互联网与信息技术的飞速发展,人们每天需要花费越来越多的时间从海量信息中筛选对自己有价值的内容,电影信息服务商们也越来越难以针对每个独立的个体提供个性化的优质服务。传统的信息数据处理手段如搜索引擎等技术已经无法满足现今人们对信息质量的要求,因此如何打破网络信息与用户之间的壁垒成为了一个难以忽视的问题。在这样的社会背景下,推荐算法作为一种解决信息过载问题的有效手段越来越受到研究者与信息服务商的关注,其中电影推荐因为其商业价值高、使用频繁、数据类型多样等原因成为该领域的重点研究方向。传统电影推荐算法往往使用现有的文字标签与用户信息进行推荐,例如电影名称、发布时间、主演等等,然而其中却忽略了电影本身所具备的多媒体信息。电影海报作为一部电影故事与艺术的高度浓缩,不仅影响观众对电影的第一印象也能反映出电影所属的抽象类别。近年来随着电子硬件技术的快速进步,对于图像等非结构化数据信息的处理、挖掘也越来越便捷,衍生出相关技术也越来越丰富。因此将图像信息挖掘手段应用到传统电影推荐系统中拥有重要的研究意义。本文以互联网上公开的电影海报图像为研究对象,融合使用多标签学习方法、不均衡数据处理方法和卷积神经网络方法对其进行信息挖掘,以达到扩充原始电影类型集合的目的,利用新的电影类型集合再对传统的电影推荐算法进行优化,从而获得更加精准的推荐列表。该文章的主要内容如下:(1)针对电影推荐场景中海报图像的数据特点,对电影样本的类型分布进行统计分析,通过融合选择的多标签学习框架(Calibrated Label Ranking)、不均衡数据处理方法(Easy Ensemble)和卷积神经网络解决了电影海报类型难以提取的问题。(2)研究了单一浅层学习方法与深度学习模型的数学原理和优缺点,分析两者在电影海报分类上的性能差异,通过设置多种实验方案进行性能比较,构建出适合用于在两种电影类型间分类的基分类器。(3)针对由于电影ID、名称等数据内容之间的差异较大而产生的分布稀疏问题,通过引入嵌入矩阵避免了传统One-hot编码产生的维度爆炸现象。从特征融合和模型训练的角度分析,选择使用文本卷积网络避免电影名称特征提取困难的问题。本文实验采用公开数据集MovieLens 1M的电影数据与IMDB网站上爬取的电影海报图像进行推荐算法性能分析。以测试集准确率、Top_N精确度作为评判指标,通过比较多种模型结构选择性能更为优秀的组合。实验结果证明了将电影海报信息融合到电影推荐算法中比传统方法更有优势,同时也从另一个角度证明了电影海报可以反映出一部电影的大致类型。