基于客户交易数据的购买树谱聚类算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:goskatecomcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代网络的高速发展使市场经济呈现白炽化的竞争状态,新一代的消费者对服务的要求也更细致,如何制定高效的营销策略成为各个公司需要思考的问题。虽然今天有很多方法可用于客户细分,但其中大多数强调数值计算而不是商业目标。客户交易数据是零售公司的销售数据,累积成客户日常购物交易的大数据。为了使这些客户历史数据产生营销价值,使用聚类的方式对其进行处理。客户交易数据是零售公司记录客户购买数据的集合。早期的统计学变量收集便捷易于使用,所以成为最初的研究方式。随着客户购买交易数据的迅速增加,新的研究转向使用特定的产品变量,如购买的商品。尽管已经有一些数据聚类的方法,但这些方法耗时并且无法处理大量的事务记录。大多数工作采用层次聚类算法,不能扩展到大规模交易数据。PurTreeClust聚类算法使用购买树结构对客户交易大数据进行聚类,但是还存在以下两个问题,首先在购买树距离上调整层次权重是困难的,其次没有对聚类性能进行优化。本文提出两个新方法解决PurTreeClust存在的问题:第一,本文针对难以调整购买树层次权重的问题,提出一种局部的购买树谱聚类方法Local PurTree Spectral Clustering(LPS)。本文使用加权的购买树距离来衡量两个购买树之间的差异。在聚类过程中这种新方法同时自动从局部距离和层次权重中学习数据相似度矩阵,并应用迭代优化算法来优化新模型。第二,本文针对难以调整购买树层次权重和优化聚类性能的问题,提出一种双层子空间加权谱聚类方法Two-level Subspace Weighting Spectral Clustering(TSW)。为了更好地重建隐藏在客户交易数据中的集群结构,学习一组稀疏节点权重来表示少数重要的叶子节点,减小距离计算的复杂度。新方法从购买树子空间距离中的层次权重和稀疏节点权重学习一个自适应相似度矩阵。因为很难手工来设置适当的参数,所以使用正则化参数和迭代优化方法来优化新模型。本文提出的两个新方法在真实数据集上进行实验对比分析。第一种LPS方法优于四种常用的聚类方法,第二种TSW优于六种常用的聚类方法,而且优于第一种LPS方法。根据本文的实验结果,验证了两种新方法在客户交易数据聚类方面的有效性,具有一定的应用价值。
其他文献
可验证模式串匹配,即用户能通过不可信云服务器上的外包文本数据获得可验证的模式串匹配结果。对应的验证问题是很多以安全性为主的大数据应用的基本问题,特别是外包到云服务
目的了解登革病毒感染后在自然病程及预后中血清抗体动态变化特征及相关影响因素,旨在为登革热的临床诊治及治疗性抗体的研制提供参考。同时对广州市健康人群登革热抗体水平
由用户部署的毫微微蜂窝基站,在大幅改善室内用户通信质量的同时,也引发了同频干扰问题。由于联盟博弈和匹配策略具有算法复杂度低,适用于自组织异构网络等特点,在毫微微蜂窝
单级衍射光栅具有保留0级和共轭±1级的衍射特性,能够有效地抑制高阶衍射。这种产生纯净光谱的衍射特性在激光等离子体X射线诊断中具有重要的应用价值。然而,当入射X射线的能
过程系统领域中存在以多项式结构表示的系统,这样的系统以非线性系统居多。数值计算解法在求解这类系统过程中,由于在中间过程中涉及处理精度以及容易陷入局部最优解等难题,
本文论述马林诺夫斯基法律效力理论,指出法律效力来源于社会个体的自我生存生育的需要欲求,具体表现就是生物性的基本需要、依附于基本需要的经济性需要的衍生需要,及其整全
朱鹮作为国家Ⅰ级重点保护野生动物,曾一度被认为在野外已经灭绝。自从1981年在陕西洋县再次发现7只野生朱鹮后,经过多年努力,朱鹮种群数量得到了进一步的恢复和壮大。目前,
随着社会经济的不断发展,生产力发展水平的逐步提高,地税稽查管理工作的难度越来越大,工作效率需要进一步提高。采用计算机和互联网技术实现地税稽查管理工作已经成为当前发
近年来我国乡村地区步入高速发展阶段,这得益于两个方面:一方面,我国对于乡村地区的发展愈发重视,出台了一系列助力乡村地区发展的政策;另一方面,城市居民向往乡村地区自然淳
第1部分临床研究——IgG4相关性疾病临床特征分析目的:总结分析IgG4相关性疾病(IgG4-related disease,IgG4-RD)临床表现、实验室、影像及病理特点,以提高对该病的认识。方法: