论文部分内容阅读
互联网的飞速发展,不仅加快了人们生活的步伐,提高了生活质量,同时也为互联网自身带来了巨大的数据信息。从旧时代堆积如山的书本到现在密密麻麻的文件列表,存储方便的同时也导致了数据处理的困难。而推荐系统自诞生以来,给人类带来了巨大的利益与便捷。推荐系统虽已成熟但非完美。本文从用户和项目两个角度出发,多角度去研究用户及项目之间的相似度,并融入现今流行的文本处理和深度学习模型,研究如何改进和挖掘用户或项目的更深层信息,从而提高系统的性能。本文主要研究内容如下:1.相似性分析。本文一方面从优化相似度度量公式出发,在现有的基本相似度公式基础上进行改进,通过减小用户之间存在的用户评价值差异去减小个性用户的偏好和行为差异所带来的影响,进而优化用户相似度,获得更准确的目标用户群体。另一方面考虑了系统的冷启动问题,将用户的属性信息融入到改进的相似度计算公式中,改善了系统对新用户或无历史行为数据的用户的推荐不友好问题。最后通过公开数据实验,验证了改进后的算法的优越性,提高了系统的推荐水平。2.文本处理。传统推荐算法分析的目标数据过于简单,使得其从中获取到的有效信息较少,而影响了系统的推荐能力。文本处理方法很好的利用了系统中传统算法无法处理分析的数据,大大地增加了推荐算法的可推荐度。本文也从文本处理的角度出发,在电影推荐系统中利用项目的类别特性,及其之间的文本信息关联性,用文本处理方法进行分析以得到项目的类别特征向量,并将其作为计算项目相似度的依据。3.特征挖掘。相似度计算的数据不仅仅来源于用户或项目自身的属性数据,还有用户或项目之间的行为关系数据。传统推荐算法处理这些数据的方法无非就是直接计算、矩阵分解或文本处理等类似的方法,其处理结果固然有效,但得到的特征数据都是较为表面的显式特征。本文从挖掘信息深层特征数据的角度出发,将深度学习思想融入到协同过滤算法中,利用深度学习模型对用户或项目行为数据进行分析训练,得到项目的深层特征向量,并结合通过文本处理方法得到的项目类别特征向量,得到最终的相似度计算方法。通过实验对比分析,传统协同过滤算法在有了文本处理及深度学习的加持后,多维度的推荐算法为用户提供了更为精确理想的推荐结果。