论文部分内容阅读
图作为一种常用的数据结构,由结点及其之间的连接边组成,目前已成为各种复杂对象及其之间联系的建模工具。在电子商务网站中,客户登录网站并进行物品交易,都会在网站的后台数据库里生成相关的交易数据。利用这些交易数据,可以构建出各种各样的客户关系网络图。以购买同种物品的客户关系为例,图的结点表示不同的客户,而图中的一条边则表示两个客户在该网站上购买了相同的物品。与其他类型数据类似,这种客户关系网络图蕴藏着丰富的信息与知识,在电子商务网站的客户关系管理中具有实际的应用价值。图聚类是利用聚类技术在图中分析出那些内部联系紧密、外部联系松散的聚簇。图聚类已在社会网络的社区发现、蛋白质的复合物检测等应用得到实际的运用。在上述电子商务网站的客户关系网络图中,可以利用图聚类的方法,挖掘出不同的客户群体簇。所挖掘出来的客户群体簇,可能代表了该群体簇里的客户具有相似的兴趣、偏好,也可能代表了这些客户具有相似的家庭结构、年龄段等。这类信息对于电子商务网站进行个性化商品推荐,制定更有针对性的营销策略,提升网站的运营具有指导意义。一些主流的电子商务网站,例如淘宝、一号店等,其拥有的客户数量相当庞大,由这些客户所形成的关系图也会非常巨大。面对庞大的数据量,单个工作站不管是在CPU计算能力还是在内存消耗上均无法满足需求,从而导致聚类分析无法正常执行。在大规模的客户关系图中,如何有效地挖掘出客户群体簇,已成为业界共同关注的问题。MapReduce作为一种并行编程模型,可实现上百乃至上千台计算机的互联,将巨大的系统资源池连接在一起,形成庞大的机器集群,特别适用于大规模数据的并行处理。本文考虑MapReduce在大数据处理上所具有的优势,试图将MapReduce与传统的图聚类方法相结合,提出一种分布式的图聚类方法,并将之运用于客户关系发现的实际应用中。本文以作者参与的“钢贸网站交易数据分析”实际项目为应用实例,利用某钢贸公司2006年至2011年积累下来的5年交易数据,通过图聚类的方法,分析得到钢贸客户群体,为该公司制定有效的钢材销售策略提供了决策支持。具体而言,本文的研究内容主要包括:1)论文首先介绍相关技术,包括数据挖掘、图聚类、MapReduce并行框架及其开源实现Hadoop。2)接着以钢贸电子商务网站为具体实例,结合钢贸交易数据的实际特点,阐述了钢贸交易数据仓库构建过程,并对钢贸客户关系图建模进行了详细论述。3)论文以MapReduce框架为基础,提出了一种基于MapReduce的分布式图聚类算法,即MR-LSH算法,以解决在分布式环境下如何利用LSH实现大规模图数据的可扩展并行聚类问题。该算法将MapReduce并行框架与位置敏感哈希(Locality Sensitive Hashing,简称LSH)相结合,从而在MapReduce并行框架中实现一种基于位置敏感哈希的分布式图聚类算法即MR-LSH算法。论文将详细论述MR-LSH算法的具体思路及其实现框架,并详细介绍了框架中的各个步骤的实现方法。在此基础上,论文运用某钢贸公司2006年至2011年的交易数据生成的客户关系图,通过实例证明本文所提到的分布式图聚类在电子商务数据挖掘领域里的可行性与实用性。实验结果表明,该系统安全可靠、易维护、具有良好的可扩展性。