论文部分内容阅读
现实世界中,数据的分布往往是不平衡的,数据非平衡性问题已影响到多个应用领域如:客户流失、欺诈侦测、风险管理等。当前,随着数据挖掘研究的深入,非平衡数据挖掘正成为一个新的热点研究领域。本文研究的客户流失数据集具有典型的非平衡数据问题,客户流失对象为网络招聘行业的企业客户。全球网络招聘方兴未艾,据统计全球每天约有2000万条就业信息发布,3000多万人在互联网上发出求职简历,2006年全球招聘市场规模为172亿美元。在中国,2007年网络招聘市场规模为9.7亿元,2008年12.5亿,预计2009年将达到16.1亿元。网络招聘巨大的市场规模,良好的利润前景催生了新的专业化、行业性、地方性的招聘网站的诞生,同时也加剧了网络招聘行业的激烈竞争。针对客户流失问题,目前在电信行业、银行业、保险行业基于数据挖掘技术进行客户流失预测建模,并取得了丰硕的研究成果。而针对网络招聘行业面向企业客户流失问题的研究尚属起步阶段,本文分析了前人研究成果,对非平衡数据进行了介绍;对客户流失预测理论、研究方法和发展脉络进行了回顾与综述;支持向量机(Support Vector Machine,SVM)以其坚实的理论基础与良好的推广性能成为近几年来应用研究的热点,是一种流行的数据挖掘技术,本文对支持向量机进行了介绍;论述了我国网络招聘行业特征、市场规模及发展前景。最后通过国内某知名招聘网站企业客户特征数据以及客户在线行为日志数据,利用数据挖掘技术进行了客户流失预测建模及挽留策略的实证研究。本文的研究成果主要有:1)针对客户流失数据集的非平衡性与错分代价差异性问题,在传统SVM基础上,引入代价敏感学习理论,提出了代价敏感SVM的客户流失预测建模方法,通过实验验证了方法的有效性,对解决此类问题有一定的借鉴意义。2)针对客户流失预测数据集的高维特征约减问题,提出了主成分分析与神经网络的预测建模方法。通过实证研究,结果表明此组合方法降低了高维属性,简化了神经网络拓扑结构,提高了模型的预测性能。3)针对网络招聘企业客户挽留问题,分析了客户流失影响因素,基于K-means聚类技术对客户在线行为进行客户细分,并结合每类客户特征探讨了客户关系管理策略。