基于共享最近邻的客户交易数据聚类分析及并行化

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:jiujiejushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用客户交易数据聚类分析,可得到更优异的客户细分效果,有助于企业更详尽地了解客户消费习惯,制定精准的营销策略。Pur Tree Clust是一类新型的客户交易数据聚类分析技术,采用Pur Tree距离度量方式,可以很好地分析处理具有层次树结构的交易数据,但未考虑近邻点的影响,仅将交易树分配到距离最近的聚类中心所属类簇,容易出现错误的交易树分配。本文利用交易树之间的共享最近邻信息,对客户交易数据聚类分析及其并行化进行了较深入研究,以发现更加紧凑清晰的类簇,并避免了交易树错误分配,从而有效地改善客户细分效果。主要贡献如下:(1)利用交易树之间的共享最近邻信息,提出一种客户交易数据聚类算法。该算法首先利用Pur Tree距离计算每棵客户交易树的共享最近邻与共享近邻相似度,并计算每棵客户交易树的局部密度与分离距离。在聚类分配时,充分利用共享最近邻信息,首先分配类簇的从属交易树,然后分配类簇的可能从属交易树,实现聚类分配,可发现更加紧凑清晰的类簇,并避免了交易树错误分配,改善了客户细分效果。最后采用6个真实客户交易数据集,实验验证了该算法的有效性。(2)在Spark集群环境下,给出一种客户交易数据并行聚类算法。该并行算法首先利用随机划分的数据放置策略,保证每台从节点上的数据量基本相同;然后在每台从节点上分别计算客户交易树的Pur Tree距离、局部密度和分离距离,进行聚类簇分配与扩展,得到最终聚类结果。最后采用真实客户交易数据集,实验验证了该算法的扩展性和可伸缩性等。
其他文献
镁合金是目前工业装备实现结构轻量化的关键材料,主要通过轧制工艺制备成形;铝合金是现有应用范围最广、加工塑性最好的金属材料之一。通过轧制工艺可将镁、铝合金板材进行复合成形,制备出兼具两种金属材料优点的新型复合材料──镁铝层合板。镁铝层合板多采用热轧复合,而传统的等温热轧工艺在轧制温度设定上存在一定困难,轧制温度不够高时则容易导致镁合金产生严重的裂纹,而轧制温度过高时,由于变形初期镁、铝板尚未形成紧密
车轴是铁路运输的关键零件之一,高速及重载是其主要的工况特点,其产品性能直接决定了人民财产及生命安全,因此,对车轴的性能要求极高。车轴热成形阶段的塑性损伤是其在运行阶段产生疲劳裂纹最直接的根源。因此,研究车轴钢在热成形过程中的塑性损伤机理对于提高车轴质量具有重要意义。本文以34CrNiMo6钢为研究对象,利用实验与ABAQUS有限元模拟相结合的方式,研究了材料在热成形过程中塑性损伤的形成机理。首先在
智能制造是我国制造业未来发展的主要方向,为我国制造业从传统的设计与生产方式向智能化的设计与生产方式转型指明了前进的方向。本文以中厚板全液压矫直机控制系统作为研究对象,首先完成了中厚板全液压矫直机控制系统的智能化设计和三维虚拟装配,其次通过暂态地电压检测法对控制系统内部发生的局部放电现象进行了仿真研究。基于数字化平台的智能化设计相较于传统控制系统设计,有信息数字化、设计过程智能化、三维虚拟装配自动化
科学合理的协同创新收益分配方案能让每一个参与协同创新的企业获取更多收益,有助于整个协同创新联盟维持下去,从而促进企业持续发展。既有的研究主要运用博弈论和shapley值法。在博弈论分析方法中,各企业都着眼于自身利益,并不利于协同创新长久维持下去。在shapley值法分配上,大部分研究并没有考虑shapley值法暗含合作方风险均等的假设,而合作中的风险是影响合作收益分配不可或缺的因素。因此,传统sh
物流配送是运输行业的重要环节,车辆路径问题是物流配送中最基础的问题。随着社会的日渐发展,只考虑单一目标优化的车辆路径问题已不能满足实际的市场需求,因此,考虑多目标的车辆路径优化问题渐渐成为物流配送的重点。在对使用车辆数、行驶距离优化的基础之上,同时保证对顾客高质量的服务,降低运输过程中对环境的污染等因素也成为物流运输的准则。因此,本文考虑物流配送过程中车辆载重、运行时间、车辆到达时刻等多个现实条件
全国汽车保有量的不断增加,会带来道路拥堵、事故率上升等一系列交通问题。因此,事故率低,道路通行效率高的智能交通系统(Intelligent Traffic System,ITS)被提出,众多学者对此进行深入研究。无人驾驶车辆作为ITS的重要组成部分,其操纵控制尤为重要。车辆操纵控制的关键是建立准确的动力学模型和设计合理的控制器。车辆操纵控制系统是受多约束限制的多变量非线性系统,而模型预测控制(Mo
纵向数据是目前医学、心理学等诸多领域中经常遇到的数据形式.采用联合建模方式分析纵向数据是一种常见的方法.本文突破了常规的经验建模,提出了一种新的联合建模方法,将测量误差项服从偏态分布的非线性混合效应模型作为协变量模型与适用范围更为宽泛的广义半参数线性混合效应模型联合建模.基于此联合模型,采用贝叶斯方法对其参数进行估计.然而在实际数据中,数据往往存在偏态,左删失和不可忽略缺失等问题.本文针对以下两种
随着数据量的爆炸式增长,“信息超载”问题日趋明显。用户难以在海量信息中快速获取所需信息,这对用户的日常生活造成极大不便。因此,简单的信息检索已经不能满足用户需求,推荐系统应运而生。推荐系统通过建立算法模型,精准把握用户的兴趣偏好,建立用户和物品信息间的联系,从而向用户推荐需要的相关信息及物品。尽管推荐算法有效提升了用户筛选信息的效率,并已广泛应用于电子商务中,但其还面临诸多问题。本文针对传统推荐算
随着社会经济生活的日益繁荣和人民生活水平的逐步提高,世界对石油、矿产等资源的需求也在不断增长。进入工业化以来,由于技术等方面的限制,资源大多是通过挖掘土地资源获得的,土地资源基本上是不可再生资源。长时间的开采,必然会出现资源枯竭、能源短缺的问题。为了解决这一现象,世界各国和组织越来越重视海洋资源。然而,海洋空间广阔,环境复杂。为了更合理的开发海洋,必须使用一些高科技的海洋装备,其中水下机器人是应用
随着板带轧机向着高速、大型化方向发展,对设备运行过程稳定性提出了更高的要求。目前板带轧机设备在高速重载运行条件下,轧制过程中轧机辊系不规律振动问题愈发明显,轧机的平稳运行直接影响产品质量精度与质量稳定性。板带轧机是由机架、辊系、平衡装置、传动装置等多个部件组成的复杂机械系统。由于内外激励引起的各部件之间的耦合作用使板带轧机系统成为一个复杂的多体耦合动力学系统。因此,综合考虑轴承刚度特性的影响,对板