论文部分内容阅读
电商行业,为了满足用户的个性化服务需求,广泛地应用推荐系统技术。在推荐技术中,仍面临着两个严峻的问题。第一个问题,是如何在个性化推荐模型训练前选择有效的特征。在机器学习算法应用前,通常会提取高维数据特征。但是特征维度过高,会导致训练时间增加和模型过拟合等维数灾难问题。所以,要剔除冗余特征和无效特征,保证每一维特征对预测结果都有区分性;第二个问题,是电商的实际数据集中,冷启动用户数量庞大,导致个性化推荐过程中预测评分准确率降低。所以,需要对这类冷启动用户进行特殊处理。另外,虽然因子分解机算法行业泛化能力强,但是它对所有特征都无差异同等处理,并无侧重,所以存在无法重点利用先验知识的缺点。针对以上问题,本文从理论和工程的角度给出以下解决方法:首先,针对特征有效性验证的问题上,通过利用实际电商数据用户的行为统计分析,提出一种单特征预测有效性的验证方法;然后,针对电商行业个性化推荐中面临的用户冷启动、因子分解机算法应用中先验知识利用不足的问题上,提出一种基于聚类的分级推荐系统,将系统的预测评分与用户基准评分线性融合,获得最终评分的方法。具体研究内容及创新点如下:首先,在实际的电商数据集中,提取出用户、商品、用户-商品对之间对算法预测结果可能有效的多维特征。然后,基于指定的特征,正交划分用户类别。再针对各类目标用户,进行相应的短信推送,通过短信召回率分析特征的有效性和重要性。实验证明,通过这种理论结合实际的特征有效性验证方法,能成功剔除掉对用户分类区分性弱的特征,提取出最能代表用户的主特征。通过验证保留下特征,可做为机器学习算法输入的特征。然后,在解决个性化推荐的评分预测问题中,提出一种基于聚类的分级推荐系统模型,该系统模型主要分为两部分:离线子系统和实时子系统。在离线子系统中,首先,利用聚类算法初步挖掘用户的行为模式,生成相似用户的小候选集列表,降低后续处理时用户数量;然后,对用户注册时的特征进行计算,离线生成用户的基准评分。在实时子系统中,利用因子分解机算法对用户进行个性化兴趣挖掘,计算用户与商品的相关性,预测用户对商品的评分,该预测评分与离线子系统产出的基准评分线性融合,生成用户-商品对的最终预测评分。实验验证,通过分级推荐模型处理推荐,较直接使用因子分解机算法推荐,预测的准确率和实时性都有所提高。