论文部分内容阅读
随着互联网技术的快速发展,电子商务的规模正在急剧的扩大,需要依靠专门的商品搜索引擎来帮助用户检索和筛选商品信息。商品搜索引擎会对查询结果进行排序,而排序结果的质量直接关系到用户的消费体验和效率。目前,常见的商品排序方式为基于单个商品消费属性(比如价格、销售量等)对查询结果进行排序,形式比较单调,不能满足用户逐渐增长的多样化和个性化的消费需求。本文开始探讨基于多个商品属性对查询结果进行排序的可能性。常见的方法为构造聚合函数,将多属性问题转换为单属性问题,然后进行排序。然而由于所有用户使用同一个聚合函数,排序结果不能体现用户对商品不同属性的个性化偏好,导致出现排序结果单一问题;同时也缺乏在客观上对商品本身价值的衡量,导致排序结果具有一定的不合理性;而且随着电子商务中用户与商品数量的急剧增长,在排序的性能方面也面临着很大的挑战。为了应对上述问题,本文以实现对查询结果基于多商品属性的个性化排序为目标展开了研究。首先,本文拟构建基于商品属性的用户偏好模型,通过分析用户在电子商务网站上的购物行为信息,挖掘出用户对商品不同消费属性的偏好,使排序结果能满足用户个性化的消费需求。其次,提出了基于用户偏好的Skyline排序,Skyline排序基于用户偏好模型构建的个性化权重向量,实现对查询结果基于多属性的排序;基于Skyline查询机制增加商品本身在各属性值上的优劣这一客观因素对排序结果的影响,提高了排序的合理性。而且为了求取Skyline查询机制中各类商品的Skycube,本文还提出了一种更加优秀的Skycube计算方法CSBSC.最后,本文将上述方案中需要较高计算能力和存储空间消耗的商品Skycube计算部分放到Hadoop平台上进行,而且实现了CSBSC算法的MapReduce版本CSBSC-MR,并对其在MapReduce框架下的执行过程做了进一步的优化,提高了计算的性能。本文在上述研究工作的基础上构建了一个基于Skyline的商品排序系统SLine系统,以实现对商品查询结果基于多商品属性的个性化排序,SLine系统最终会被部署到东南大学云计算中心。本文最后采用合成基准测试数据集和从京东商城抓取的真实数据分别对CSBSC算法和SLine系统进行了性能验证和测试。