论文部分内容阅读
随着互联网信息技术的飞速发展,信息过载问题愈加严重,用户难以在海量的数据中,快速、精确的定位到感兴趣的内容,因此为用户提供个性化信息推荐成为了目前的研究热点。传统的推荐算法仅仅利用评分等结构化数据产生推荐依据,没有利用非结构的用户原创信息(User Generated Content,UGC),如评论、标签、文本描述内容等,在海量数据场景下,无法精确识别用户的兴趣,推荐质量低且数据稀疏时容易过拟合。为了解决以上所述问题,本文提出了基于深度学习算法“堆栈降噪自编码器”改进的推荐算法,从用户的海量自由文本标签中提取特征,并结合协同过滤算法,为广大互联网用户提供更高精准度、更具有个性化的推荐服务。本文的主要工作包括如下4点:(1)引入标签信息传统的协同过滤推荐算法仅仅利用了用户的评分信息,推荐结果难以精匹配用户的兴趣关注点,因而需要引入额外的辅助推荐信息,提高推荐结果的准确性。而用户对物品标注的自由文本标签可以反映出用户对物品的兴趣偏好,本文通过引入标签信息作为辅助推荐依据,增强推荐算法的兴趣匹配度。(2)建立标签特征提取模型由于用户标签是非结构化的自由文本,数量庞大且分布稀疏,针对稀疏分布会导致模型过拟合问题,本文采用标签扩充的方法降低数据稀疏性对算法性能的影响;在海量数据集场景下,标签词组的词典将会非常庞大,使用传统的独热码对标签编码将会导致计算维度爆炸,本文使用词向量压缩算法word2vec对标签进行编码压缩,可以有效的降低推荐算法训练时的计算复杂度;对于文本特征提取,本文使用堆栈降噪自编码器(Stacked Denoising Autoencoders,SDAE)模型,可以从标签数据中提取到有效的兴趣表达特征;(3)动态标签权重传统算法认为标签之间是独立的,没有考虑标签和用户兴趣偏好之间的关系,本文提出基于用户情感表达和评分反馈的动态标签权重,将用户标签分为积极和消极两类,分别进行特征提取,然后使用因子分解机(Factorization Machine,FM)进行特征归一化处理,提高标签特征的兴趣表达能力。(4)改进的协同过滤模型在协同过滤推荐的基础上引入用户标签特征,在生成“用户-兴趣”关注矩阵和“物品-兴趣”质量矩阵时,施加标签特征的约束,同时利用评分反馈,提高推荐算法的兴趣匹配能力和推荐结果的准确性。本文算法在大型开源数据集“MovieLens”上进行了实验验证,结果表明本文算法可以提高推荐算法的准确性和推荐结果覆盖率,在模型复杂度和训练性能上与其他基于深度学习的推荐算法相比无明显差异。