论文部分内容阅读
为了帮助网络运营商改善用户个性化服务推荐,结合某广电网络运营公司的提供的用户观看行为记录,本文从多个维度构建收视行为特征向量设计并实现了基于线性加权的混合模型推荐系统,同时在真实的数据集上对实现的系统的性能进行测试分析,具体研究内容如下:1.从多个角度对用户行为数据进行统计分析,发现用户的活跃度和电视产品的流行度都存在长尾分布;其次分析了用户活跃度和电视产品流行度之间的关系,发现高活跃的用户喜欢点播冷门电视产品,而低活跃度的用户喜欢点击热门电视产品的特点,进而深入分析了计算用户偏好性实现用户物品个性化推荐存在的关键问题以及问题之间的层次关系,在此基础之上,设计基于用户行为的推荐系统框架。2.为了说明不同的用户收视行为反应用户收视偏好的程度是不同的,对用户的收视行为进行了简单的分析;其次,从三个不同的维度,分析了用户的行为偏好性,构建了基于收视行为的特征向量、基于点播行为特征向量(用户_二级目录特征和用户_关键词特征)和用户收视的时间特征向量。为了降低了热门词汇在用户关键词列表中的权重,利用TF-IDF的基本思想构建用户_关键词特征,从而改善对用户的个性化描述。3.由于数据集中存在所谓的“新用户”和“新物品”现象,对经典的基于用户和基于物品的协同过滤算法而言,是一个冷启动问题。经典的推荐算法在不同的场景表现出的性能有所不同,为了提高算法的准确度和健壮性,提出了基于加权融合的混合推荐算法模型;由于基于协同过滤的方法和基于用户主题兴趣相似度的推荐模型的一个核心步骤为相似计算,因此需要分析不同相似度计算方法;然后,设计并实现了5种不同的推荐算法;最后通过线性融合的方法将5种算法进行融合形成加权混合推荐模型,以提高算法推荐的准确度。4.为了全面评估系统的性能以及避免模型的过拟合线性,首先利用十折交叉验证法对数据集进行了划分,其次,从准确率、召回率、覆盖率和流行度四个评估指标测试各个子模型的在用户收视行为数据集上的性能,并且各子模型自带的参数;最后基于线性回归的方法给各个子模型赋予特定的权值,并比较模型和子模型测试数据集上表现性能,发现基于加权混合后的模型在准确率、召回率和覆盖率方面优于子推荐模型。