论文部分内容阅读
大数据时代网络的高速发展使市场经济呈现白炽化的竞争状态,新一代的消费者对服务的要求也更细致,如何制定高效的营销策略成为各个公司需要思考的问题。虽然今天有很多方法可用于客户细分,但其中大多数强调数值计算而不是商业目标。客户交易数据是零售公司的销售数据,累积成客户日常购物交易的大数据。为了使这些客户历史数据产生营销价值,使用聚类的方式对其进行处理。客户交易数据是零售公司记录客户购买数据的集合。早期的统计学变量收集便捷易于使用,所以成为最初的研究方式。随着客户购买交易数据的迅速增加,新的研究转向使用特定的产品变量,如购买的商品。尽管已经有一些数据聚类的方法,但这些方法耗时并且无法处理大量的事务记录。大多数工作采用层次聚类算法,不能扩展到大规模交易数据。PurTreeClust聚类算法使用购买树结构对客户交易大数据进行聚类,但是还存在以下两个问题,首先在购买树距离上调整层次权重是困难的,其次没有对聚类性能进行优化。本文提出两个新方法解决PurTreeClust存在的问题:第一,本文针对难以调整购买树层次权重的问题,提出一种局部的购买树谱聚类方法Local PurTree Spectral Clustering(LPS)。本文使用加权的购买树距离来衡量两个购买树之间的差异。在聚类过程中这种新方法同时自动从局部距离和层次权重中学习数据相似度矩阵,并应用迭代优化算法来优化新模型。第二,本文针对难以调整购买树层次权重和优化聚类性能的问题,提出一种双层子空间加权谱聚类方法Two-level Subspace Weighting Spectral Clustering(TSW)。为了更好地重建隐藏在客户交易数据中的集群结构,学习一组稀疏节点权重来表示少数重要的叶子节点,减小距离计算的复杂度。新方法从购买树子空间距离中的层次权重和稀疏节点权重学习一个自适应相似度矩阵。因为很难手工来设置适当的参数,所以使用正则化参数和迭代优化方法来优化新模型。本文提出的两个新方法在真实数据集上进行实验对比分析。第一种LPS方法优于四种常用的聚类方法,第二种TSW优于六种常用的聚类方法,而且优于第一种LPS方法。根据本文的实验结果,验证了两种新方法在客户交易数据聚类方面的有效性,具有一定的应用价值。