论文部分内容阅读
随着信息技术的发展,人们面临日益严重的信息过载,为了帮助人们快速有效获取想要的信息,推荐系统应运而生,推荐系统作为解决信息过载的一种有效手段,已成为工业界和学术界的研究热点之一,它依据用户的显式或隐式反馈信息推测其偏好特征和需求等,将其偏好的信息、产品等推荐给他们。基于显式反馈信息的推荐系统是目前的主流,大多数推荐系统都忽视了海量的隐式反馈信息,而隐式反馈信息的普遍性使得基于此类信息的推荐系统具有更好的延伸性,但是,隐式反馈信息并不能直接反映用户的偏好,因而如何有效的利用隐式反馈信息仍需投入更多研究。本文从用户消费者行为中犹豫不定的视角来挖掘用户行为日志中的隐式反馈信息,并以此来建立推荐系统模型。用户的犹豫不定是指:他们在面对众多竞争性商品时不能出快速、果断的选择。虽然用户在消费过程中犹豫不定的心理在很多领域已有大量研究,比如心理学、经济学。然而这些研究大多数都基于主观性的消费者问卷调查——研究人员制定问题由消费者回答,而调查问卷等形式通常比较主观,结论可能并不准确,而本文提出的,在没有人工干预时,即完全数据驱动方式,通过消费者在线行为日志来自动挖掘不明确性,使结果更加精准。本文内容主要有以下几个方面:首先,介绍了本文的研究背景和研究意义,以及基于隐式反馈的推荐系统研究现状。总结了当前隐式反馈中面临的关键问题,以及面向隐式反馈的主要推荐技术,包括基于单类协同过滤的推荐、引入辅助信息的推荐以及基于排序的推荐等。其次,提出改进了一个在没有人工干预的情况下自动量化每个行为操作小节的不明确性指数的方法和同时计算用户和商品之间的不明确性指数的基本框架,这个框架不仅只限于电子商务领域,也同样适用于其他领域的类似问题。实验数据也验证了本文中提出的定量化方法及其改进后的合理性。再次,基于所观测定量化的不明确性,针对IMF模型中稀疏用户的特征向量分布趋于相同先验平均导致模型对这些用户的预测会趋于总体平均的缺陷,提出CIMF模型能同时学习得到潜在消费者的不明确性指数和商品组合中不明确性指数,该模型为用户引入附加约束矩阵,让模型对稀疏用户的预测更加准确,在一定程度上解决了隐式反馈数据稀疏性问题。最后,使用Kaggle公开数据集,源自真实购物网站的275万条用户操作记录,进行模型验证。结果表明在数据极其稀疏(非零值只占0.003%)的情况下,CIMF相比IMF模型在收敛后误差减少16%,对新样本的预测精度提升8%,表明CIMF模型更具优越性。本文对用户操作数据的分析,包括用户每小节操作数量分布、花在每个商品上的时间分布、操作转移分布等,对理解消费者行为和消费者决策过程很大帮助,分析结果表明消费者犹豫不定的程度越高,购买率越低,推荐系统应该帮助用户快速做出决定、不做过多思考。本文提出改进的选择不明确性挖掘有很多潜在应用价值,比如竞争性商品的检测,以数据驱动方式获得竞争性商品的信息,可以帮助零售商完善商品和指定竞争策略,以及个性化商品推荐,基于本文模型的推荐系统能较大程度的缓解消费者的“犹豫不定”;本文对消费者“犹豫不定”的分析有助于理解消费者的喜好,同时不明确性挖掘对预测消费者行为、为消费者和在线零售商提供更好的推荐系统以及对为人们提供更好的个性化服务都有很大帮助。