论文部分内容阅读
[摘要]采用决策树方法构建一个高效的欺诈预测模型,为改变移动通信运营商主要采用行政手段防欺诈的现状,提供一条有效、可行的技术途径。
[关键词]数据仓库 决策树 预测模型
中图分类号:TN91 文献标识码:A 文章编号:1671-7597(2008)1110032-02
一、引言
随着我国移动通信技术的发展,移动运营商业务不断扩大,据统计我国的移动通信用户已经接近6亿。然而,在红火的移动市场中,欺诈行为却也愈演愈烈,这些欺诈行为不仅对运营商造成了很大的经济损失,而且对诚信用户的利益也造成了伤害。
国际移动通信行业将移动欺诈防范方法分为行政防范和技术防范两类[1]。一方面采用行政手段,组织移动行业联盟,依靠法律和行业互助防范移动犯罪;另一方面,移动运营商还依靠移动网络控制中心,依靠成立专门的反诈骗部门和反诈骗系统监控欺诈行为。技术防范已有的做法不外乎两种,一种是在通信终端(包括移动电话和计算机终端)部署反欺诈技术模块,动态实时监测和防止移动欺诈,目前已有实现产品,这种做法有局限性,一是不能防止用户自盗,二是不能防止不法用户从别的通信元素实施欺诈行为(如从通信线路搭接入网);另一种做法是,在通信网中附加一些反欺诈功能,比如在信令系统上附加一些参数,通过交换机关口局监测用户呼叫异常、信令延时等来实现,此类方法是通过通信网的实时监测来实现的,加重了通信网的额外负担,影响原有系统的运行性能,对少数用户短时间的监控是可以的,但由于交换机分布地域不同,数据格式不同,对于大量的、长期的、全程全网的欺诈分析则有较大难度。
面对庞大的用户系统,巨大的信息数据,数据仓库发挥了其容量大、易于管理的作用,而基于数据仓库的移动通信系统反欺诈研究是整合客户历史海量数据,通过对客户基本自然属性与历史行为属性的数据进行深入分析,提炼出欺诈客户属性特征来建立客户欺诈预测模型,从而预测未来客户发生欺诈的可能性及其原因,为市场决策人员和客户管理部门人员采取有效措施提供依据。
二、模型建立需求
在客户话费欺诈分析领域,所依赖的数据源呼叫详细记录[2](Calling Detailed Record ,CDR)由于交换机数据格式不同而不同,因而在数据字典、编码规则、命名方式和关键字等各个方面都有不同,甚至存在名称相同而含义不同。在进入数据仓库时,必须对这些数据进行集成适应面向欺诈分析主题的要求。以此建立一个客户欺诈预测模型是预防客户欺诈的关键。
三、建模方法及工具
目前移动通信运营商都拥有自己的数据仓库,基于现有数据仓库进行数据挖掘,利用预测模型的手段进行分析是数据仓库研究的重点内容之一。数据挖掘是从大量数据中发现正确的新颖的潜在有用并能够被理解的知识的过程。数据经过挖掘算法生成挖掘模型,挖掘模型的运行产生挖掘结果,这个结果也就是人们所想得到的预测信息。
(一)建模方法
客户欺诈预测模型主要是对移动客户一定时间内欺诈与否的一种判断,其本质是一种分类问题,即将现有客户分为两类:有欺诈倾向的客户和无欺诈倾向的客户。主要方式是根据以前拥有的客户数据建立客户自然属性、服务属性和客户消费属性与客户欺诈可能性关联的数学模型,找出客户自然属性、服务属性和客户消费属性与客户欺诈的最终状态的关系,并给出相应的发现规则公式,以此预测识别具有欺诈倾向的客户[3]。基于严格数学计算的数据挖掘技术能够有效改变以往移动通信企业在客户欺诈问题上防制不利、亏损严重的现状。
在构造模型过程中,可以使用许多不同的方法(如决策树、贝叶斯分类法、神经网络分类法等)。尽管存在如此多的分类方法,但不同的商业问题需要用不同的方法去解决。即使对于同一个商业问题,可能有多种分类算法适用。具体到移动通信业,由于移动通信市场和客户无时无刻不在变化,这就需要经常用新的数据去建立预测模型,因此对建模的速度要求较高。在众多的分类方法中,本文采用决策树方法中新近发展的C5.0算法来建立欺诈预测模型。因为决策树模型生成的结果清晰易懂,具有好的解释性,这很有利于与决策人员沟通和模型的认可推广。而且决策树的每个分枝都对应一个分类规则,所以决策树分类算法最终可以输出一个容易理解的规则集,而其他分类算法的结果没有这么好的解释性,甚至很难解释。
(二)建模工具
SPSS Clementine是一个开放式数据挖掘工具,提供多种图形化技术和可视化技术使得“人工智能”分析成为可能。你可以集中精力于要解决的商业问题,而不是单单完成技术任务(比如写代码)。它支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准CRISP-DM。最近的一次调查显示,作为实际应用的行业标准,超过50%的数据挖掘工作者将CRISP-DM(Cross-industry Standard Process for Data Mining)应用于他们的数据挖掘工作[4]。美国的AT&T、英国电信、日本的NTT DoCoMo,澳大利亚的沃达丰、新加坡的新电信通信等企业都使用Clementine进行数据挖掘。因此本文采用Clementine8.1为建模工具[5]。
四、模型建立与实现
(一)数据准备
数据预处理是建模前的数据准备工作。数据预处理的目的一方面保证建模的数据是正确的;另一方面,通过对数据格式和内容的调整、转化、衍变等使建立的模型更加准确和有效。本文数据预处理的工作主要包括对数据的选择、清洗、属性转化、衍生变量的生成、等等。
第一步:数据清洗。数据准备应该去掉无关属性和对记录进行清洗。本系统用filter节点对与产生训练样本集属性无关的字段user id、customer id进行过滤,设置如图:
之后用data audit节点、quality节点对源数据进行审计,发现只有occupation字段的有效值数不到100%,进一步用type节点定义空值和空白值后,用table节点查看源数据,发现。ccupation字段有部分值为空白,m incre_rati。字段有0值,且identity_code字段有部分错误值,如:“111111111111111”、“999999999999999”。
第二步:属性转化。客户自然属性表中没有年龄属性和在网时长属性,但由相关专家知识知道这两个属性与欺诈可能性有关联,所以需要根据身份证号和服务开始时间来生成。
对于年龄属性,系统分别按照身份证号15位和18位来处理。在15位的老版身份证中,第7,8位为出生年份数,且用户都是20世纪出生的,所以先用选择节点select把身份证号15位的记录选出,.挑选条件设置为:length(to string(IDENTITY_CODE))=15,再用derive节点生成age属性,公式设置:
to_integer((substring(1,4,to string(FRAUD_DATE))))-1900-
to_integer(substring(7,2,to string(IDENTITY CODE))).
即欺诈发生时用户的年龄。而在18位的新身份证号第9, 10位为出生年份数,所以同理也先用选择节点select把身份证号18位的记录选出,挑选条件设置为:length(to-string(IDENTITY_CODE))=18,再用derive节点生成age属性,公式设置:
to_integer((substring(1,4,to string(FRAUD DATE))))-1900-
to_integer(substring(9,2,to string(IDENTTTY_CODE))).
对于在网时长属性,利用fraud date字段和create date字段的差值通过derive节点生成duration,对于每个月按平均值只有30天来计算。’其公式设置为:
dates_monthses difference(datetime_date(CREA}DATE),datetime_date((FRAiJD_DA TE><"30"))).
同理,对于对合并后的忠实用户数据ldh_merge_finalhonestuserdata,
采用相同的方式进行清洗和属性转化。唯一不同的是在忠实用户在网时长duration的生成时有负值产生,所以必须用select节点予以清除,排除条件为:duration Nestuserdata,采用相同的方式进行清洗和属性转化。唯一不同的是在忠实用户在网时长duration的生成时有负值产生,所以必须用select节点予以清除,排除条件为:duration<0.
第三步:属性离散化。
接下来用append节点将清洗和转化完的欺诈用户数据和忠实用户数据联合起来,分别生成总的年龄分布、总的在网时长分布、总的信用度分布、总的月话费增长率分布等4个直方图,为接下来的属性离散化做准备。根据各属性直方图的分布情况,通过直方图的generate选项分别产生4个derive node节点:increee ratio band, age band, customer credit band, duration band,对4个属性字段进行离散化。
第四步:生成衍生变量
在体现欺诈特征的属性中存在一类属性,这类属性在用户欺诈前有异常变化,变化中隐含了用户的行为信息。大多数通话行为属性属于这类,如正常情况下用户月市话量基本稳定,但是很多欺诈用户在欺诈发生时这个值就会增大。这就需要设计一些衍生变量抓住这些变化。由于我们在pl/sql developer工具中已经用sql语句进行了一系列的组合查询生成了Mee incre- ratio字段衍生变量,且其在理论上能很好的反映客户欺诈前后的行为波动的情况,所以此处就不再采用标准方差、平均值等手段来产生其他的衍生变量了。
(二)建立模型
本文采用Clementine工具和决策树C5.0算法对预测模型进行建立和实现。经过以上处理总共得到了2966个忠实用户样本数据和3172个欺诈用户数据。然后分别将它们分成训练集和测试集。具体为随机抽样出2000个忠实用户数据和2100个欺诈用户数据合并形成训练集;剩余的966个忠实用户数据和1072个欺诈用户数据合并成测试集。
其他抽样节点的设置类似,但每次抽样种子都应设置为同一值。接下来用append节点合并两个样本集形成最终的训练集,共含有4100条用户记录。再用type节点设置预测属性字段和被预测属性字段,而后将其输入C5.0节点进行训练,得出预测模型。C5.0节点的设置如下:
C5.0可以生成两种模型:决策树和规则集。规则集从决策树中推出,从某种意义上说,以一种简化或者提炼的方式陈述决策树中的信息。使用规则集,可能有一个以上的规则适用于某一记录,或者根本没有规则适用于该记录。这里要对用户是否欺诈进行预测,即要生成一个判定类别,因此选择生成决策树模型。
试验证明使用Boosting技术能提高分类准确率,但number of trials(弱规则数)过大或过小都影响准确率。过小则错误纠正能力不强,过大会导致模型过拟合。经过多次试验取值为巧时模型预测效果较好。
Cross-validate即K折交叉验证,是评估模型准确率的一种方法。首先将整个数据集划分成k个相等子集,然后进行k次迭代,依次将每个子集作为测试集,另外k-1个子集作为训练集。将k次评估的正确分类数除以数据集的记录总数可得模型的总体准确率。但在clementine 8.1种此法是模型预测训练集的准确率,而非预测测试集的准确率。所以预测效果会过分乐观,所以本系统不用此法,而是通过训练出的预测模型对测试集的预测效果来评估模型。经过实验发现剪枝度在一定范围内变化能提高预测准确率,但准确预测客户欺诈的能力有所下降。
决策树节点可以通过点击COStS重设误分类代价。对于客户欺诈预测系统,把忠实客户预测为未欺诈,把欺诈客户预测为欺诈是没有误分类成本的,因此这两种方式的误分类成本都为0。模型默认把欺诈客户预测为忠实客户的误分类成本与把忠实客户预测为欺诈客户的误分类成本都设为1。但这显然是不合理的,因为对于运营商来说,这两种错误带来的损失是不一样的,即欺诈预测为忠实所造成的损失要大的多。且客户欺诈预测的目的是尽可能多而准的预测出欺诈用户。所以我们把欺诈客户预测为忠实客户的误分类成本定得高于把忠实客户预测为欺诈客户的误分类成本,即使这样会错误地把一些忠实客户认定为欺诈客户。经过多次实验发现,欺诈客户预测为忠实客户的误分类成本越高,模型寻找欺诈客户的能力就越强,实际欺诈客户中预测为欺诈的数目就越多,但同时忠实客户中预测为欺诈的也会有所增加,这也导致准确率会有一定的下降。考虑到对客户欺诈的预测能力和预测准确率,经过多次实验得出把欺诈客户预测为忠实客户的误分类成本设置为1.4,把忠实客户预测为欺诈客户的误分类成本设置为1,具体实验数据和设置图如下。这样模型对欺诈客户的预测能力、预测准确率、误分类代价都在移动通信运营商可接受范围之内。
决策树规则如下:
(1)月通话增长率离散值为1,客户信用度离散值为bad,在网月数离散值为1,的客户,也即在网月数小于3个月,客户信用度值小于0,月通话增长率不大于389%的客户,这在现实中也有很强的解释性,一般这类用户都是一些对行人等提供固定电话拨打的私人业主,他们一般入网时间短、信用度差,且一旦话费增长过多,就会恶意欠费,然后再用其他的身份证来办理固定业务。
(2)月通话增长率离散值为1,客户信用度离散值为bad,在网月数离散值为2,的客户,也即在网月数在3-6个月之间,客户信用度值小于0,月通话增长率不大于389%的客户为忠实客户,这在现实中有很强的解释性,这时客户已对服务和产品已经认可,所以即使由于特殊情况月通话增长费有比较大的增加,也会继续使用。
(3)月通话增长率离散值为1,客户信用度离散值为good的客户,也即客户信用度值大于10,月通话增长率不大于389%的客户为忠实客户。
(4)月通话增长率离散值为2,3,4,5的客户,即月通话增长率大于389%的客户为欺诈用户,等等。其他规则不再详述。
最后,建模的整体流程图如下:
五、结论
本文采用了决策树的方法进行建模。首先通过客户通话账单的历史记录构造满足一定比例的欺诈用户数与非欺诈
用户数的训练集,然后运用基于决策树分类的方法构建出欺诈预测模型,最后用测试集数据进行模型验证,结果表明,此模型具有较好的预测准确率。
参考文献:
[1]赵瑞锋、孟祥武,数据仓库技术及其在电信反欺诈中的应用[J].计算机应用研究.2004(2).
[2]W H Inman. Building the Data Warehouse. Second Edition[M]. Jo
hn Wiley&Sons,Inc. 1996.
[3]刘辉,基于贝叶斯分类技术的电信客户欺诈分析[D].西南交通大学,2005.
[4]周涛、李海军、陆惠玲,现代电子技术基于数据挖掘技术的客户关系管理研究[J]. 2004 (11).
[5]Clementine User Guide[M],SPSS,2003.
作者简介:
张一凯,男,汉族,江苏,爱立信爱尔兰,硕士,工程师,主要研究方向:移动通信网络管理软件系统。
[关键词]数据仓库 决策树 预测模型
中图分类号:TN91 文献标识码:A 文章编号:1671-7597(2008)1110032-02
一、引言
随着我国移动通信技术的发展,移动运营商业务不断扩大,据统计我国的移动通信用户已经接近6亿。然而,在红火的移动市场中,欺诈行为却也愈演愈烈,这些欺诈行为不仅对运营商造成了很大的经济损失,而且对诚信用户的利益也造成了伤害。
国际移动通信行业将移动欺诈防范方法分为行政防范和技术防范两类[1]。一方面采用行政手段,组织移动行业联盟,依靠法律和行业互助防范移动犯罪;另一方面,移动运营商还依靠移动网络控制中心,依靠成立专门的反诈骗部门和反诈骗系统监控欺诈行为。技术防范已有的做法不外乎两种,一种是在通信终端(包括移动电话和计算机终端)部署反欺诈技术模块,动态实时监测和防止移动欺诈,目前已有实现产品,这种做法有局限性,一是不能防止用户自盗,二是不能防止不法用户从别的通信元素实施欺诈行为(如从通信线路搭接入网);另一种做法是,在通信网中附加一些反欺诈功能,比如在信令系统上附加一些参数,通过交换机关口局监测用户呼叫异常、信令延时等来实现,此类方法是通过通信网的实时监测来实现的,加重了通信网的额外负担,影响原有系统的运行性能,对少数用户短时间的监控是可以的,但由于交换机分布地域不同,数据格式不同,对于大量的、长期的、全程全网的欺诈分析则有较大难度。
面对庞大的用户系统,巨大的信息数据,数据仓库发挥了其容量大、易于管理的作用,而基于数据仓库的移动通信系统反欺诈研究是整合客户历史海量数据,通过对客户基本自然属性与历史行为属性的数据进行深入分析,提炼出欺诈客户属性特征来建立客户欺诈预测模型,从而预测未来客户发生欺诈的可能性及其原因,为市场决策人员和客户管理部门人员采取有效措施提供依据。
二、模型建立需求
在客户话费欺诈分析领域,所依赖的数据源呼叫详细记录[2](Calling Detailed Record ,CDR)由于交换机数据格式不同而不同,因而在数据字典、编码规则、命名方式和关键字等各个方面都有不同,甚至存在名称相同而含义不同。在进入数据仓库时,必须对这些数据进行集成适应面向欺诈分析主题的要求。以此建立一个客户欺诈预测模型是预防客户欺诈的关键。
三、建模方法及工具
目前移动通信运营商都拥有自己的数据仓库,基于现有数据仓库进行数据挖掘,利用预测模型的手段进行分析是数据仓库研究的重点内容之一。数据挖掘是从大量数据中发现正确的新颖的潜在有用并能够被理解的知识的过程。数据经过挖掘算法生成挖掘模型,挖掘模型的运行产生挖掘结果,这个结果也就是人们所想得到的预测信息。
(一)建模方法
客户欺诈预测模型主要是对移动客户一定时间内欺诈与否的一种判断,其本质是一种分类问题,即将现有客户分为两类:有欺诈倾向的客户和无欺诈倾向的客户。主要方式是根据以前拥有的客户数据建立客户自然属性、服务属性和客户消费属性与客户欺诈可能性关联的数学模型,找出客户自然属性、服务属性和客户消费属性与客户欺诈的最终状态的关系,并给出相应的发现规则公式,以此预测识别具有欺诈倾向的客户[3]。基于严格数学计算的数据挖掘技术能够有效改变以往移动通信企业在客户欺诈问题上防制不利、亏损严重的现状。
在构造模型过程中,可以使用许多不同的方法(如决策树、贝叶斯分类法、神经网络分类法等)。尽管存在如此多的分类方法,但不同的商业问题需要用不同的方法去解决。即使对于同一个商业问题,可能有多种分类算法适用。具体到移动通信业,由于移动通信市场和客户无时无刻不在变化,这就需要经常用新的数据去建立预测模型,因此对建模的速度要求较高。在众多的分类方法中,本文采用决策树方法中新近发展的C5.0算法来建立欺诈预测模型。因为决策树模型生成的结果清晰易懂,具有好的解释性,这很有利于与决策人员沟通和模型的认可推广。而且决策树的每个分枝都对应一个分类规则,所以决策树分类算法最终可以输出一个容易理解的规则集,而其他分类算法的结果没有这么好的解释性,甚至很难解释。
(二)建模工具
SPSS Clementine是一个开放式数据挖掘工具,提供多种图形化技术和可视化技术使得“人工智能”分析成为可能。你可以集中精力于要解决的商业问题,而不是单单完成技术任务(比如写代码)。它支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准CRISP-DM。最近的一次调查显示,作为实际应用的行业标准,超过50%的数据挖掘工作者将CRISP-DM(Cross-industry Standard Process for Data Mining)应用于他们的数据挖掘工作[4]。美国的AT&T、英国电信、日本的NTT DoCoMo,澳大利亚的沃达丰、新加坡的新电信通信等企业都使用Clementine进行数据挖掘。因此本文采用Clementine8.1为建模工具[5]。
四、模型建立与实现
(一)数据准备
数据预处理是建模前的数据准备工作。数据预处理的目的一方面保证建模的数据是正确的;另一方面,通过对数据格式和内容的调整、转化、衍变等使建立的模型更加准确和有效。本文数据预处理的工作主要包括对数据的选择、清洗、属性转化、衍生变量的生成、等等。
第一步:数据清洗。数据准备应该去掉无关属性和对记录进行清洗。本系统用filter节点对与产生训练样本集属性无关的字段user id、customer id进行过滤,设置如图:
之后用data audit节点、quality节点对源数据进行审计,发现只有occupation字段的有效值数不到100%,进一步用type节点定义空值和空白值后,用table节点查看源数据,发现。ccupation字段有部分值为空白,m incre_rati。字段有0值,且identity_code字段有部分错误值,如:“111111111111111”、“999999999999999”。
第二步:属性转化。客户自然属性表中没有年龄属性和在网时长属性,但由相关专家知识知道这两个属性与欺诈可能性有关联,所以需要根据身份证号和服务开始时间来生成。
对于年龄属性,系统分别按照身份证号15位和18位来处理。在15位的老版身份证中,第7,8位为出生年份数,且用户都是20世纪出生的,所以先用选择节点select把身份证号15位的记录选出,.挑选条件设置为:length(to string(IDENTITY_CODE))=15,再用derive节点生成age属性,公式设置:
to_integer((substring(1,4,to string(FRAUD_DATE))))-1900-
to_integer(substring(7,2,to string(IDENTITY CODE))).
即欺诈发生时用户的年龄。而在18位的新身份证号第9, 10位为出生年份数,所以同理也先用选择节点select把身份证号18位的记录选出,挑选条件设置为:length(to-string(IDENTITY_CODE))=18,再用derive节点生成age属性,公式设置:
to_integer((substring(1,4,to string(FRAUD DATE))))-1900-
to_integer(substring(9,2,to string(IDENTTTY_CODE))).
对于在网时长属性,利用fraud date字段和create date字段的差值通过derive节点生成duration,对于每个月按平均值只有30天来计算。’其公式设置为:
dates_monthses difference(datetime_date(CREA}DATE),datetime_date((FRAiJD_DA TE><"30"))).
同理,对于对合并后的忠实用户数据ldh_merge_finalhonestuserdata,
采用相同的方式进行清洗和属性转化。唯一不同的是在忠实用户在网时长duration的生成时有负值产生,所以必须用select节点予以清除,排除条件为:duration
第三步:属性离散化。
接下来用append节点将清洗和转化完的欺诈用户数据和忠实用户数据联合起来,分别生成总的年龄分布、总的在网时长分布、总的信用度分布、总的月话费增长率分布等4个直方图,为接下来的属性离散化做准备。根据各属性直方图的分布情况,通过直方图的generate选项分别产生4个derive node节点:increee ratio band, age band, customer credit band, duration band,对4个属性字段进行离散化。
第四步:生成衍生变量
在体现欺诈特征的属性中存在一类属性,这类属性在用户欺诈前有异常变化,变化中隐含了用户的行为信息。大多数通话行为属性属于这类,如正常情况下用户月市话量基本稳定,但是很多欺诈用户在欺诈发生时这个值就会增大。这就需要设计一些衍生变量抓住这些变化。由于我们在pl/sql developer工具中已经用sql语句进行了一系列的组合查询生成了Mee incre- ratio字段衍生变量,且其在理论上能很好的反映客户欺诈前后的行为波动的情况,所以此处就不再采用标准方差、平均值等手段来产生其他的衍生变量了。
(二)建立模型
本文采用Clementine工具和决策树C5.0算法对预测模型进行建立和实现。经过以上处理总共得到了2966个忠实用户样本数据和3172个欺诈用户数据。然后分别将它们分成训练集和测试集。具体为随机抽样出2000个忠实用户数据和2100个欺诈用户数据合并形成训练集;剩余的966个忠实用户数据和1072个欺诈用户数据合并成测试集。
其他抽样节点的设置类似,但每次抽样种子都应设置为同一值。接下来用append节点合并两个样本集形成最终的训练集,共含有4100条用户记录。再用type节点设置预测属性字段和被预测属性字段,而后将其输入C5.0节点进行训练,得出预测模型。C5.0节点的设置如下:
C5.0可以生成两种模型:决策树和规则集。规则集从决策树中推出,从某种意义上说,以一种简化或者提炼的方式陈述决策树中的信息。使用规则集,可能有一个以上的规则适用于某一记录,或者根本没有规则适用于该记录。这里要对用户是否欺诈进行预测,即要生成一个判定类别,因此选择生成决策树模型。
试验证明使用Boosting技术能提高分类准确率,但number of trials(弱规则数)过大或过小都影响准确率。过小则错误纠正能力不强,过大会导致模型过拟合。经过多次试验取值为巧时模型预测效果较好。
Cross-validate即K折交叉验证,是评估模型准确率的一种方法。首先将整个数据集划分成k个相等子集,然后进行k次迭代,依次将每个子集作为测试集,另外k-1个子集作为训练集。将k次评估的正确分类数除以数据集的记录总数可得模型的总体准确率。但在clementine 8.1种此法是模型预测训练集的准确率,而非预测测试集的准确率。所以预测效果会过分乐观,所以本系统不用此法,而是通过训练出的预测模型对测试集的预测效果来评估模型。经过实验发现剪枝度在一定范围内变化能提高预测准确率,但准确预测客户欺诈的能力有所下降。
决策树节点可以通过点击COStS重设误分类代价。对于客户欺诈预测系统,把忠实客户预测为未欺诈,把欺诈客户预测为欺诈是没有误分类成本的,因此这两种方式的误分类成本都为0。模型默认把欺诈客户预测为忠实客户的误分类成本与把忠实客户预测为欺诈客户的误分类成本都设为1。但这显然是不合理的,因为对于运营商来说,这两种错误带来的损失是不一样的,即欺诈预测为忠实所造成的损失要大的多。且客户欺诈预测的目的是尽可能多而准的预测出欺诈用户。所以我们把欺诈客户预测为忠实客户的误分类成本定得高于把忠实客户预测为欺诈客户的误分类成本,即使这样会错误地把一些忠实客户认定为欺诈客户。经过多次实验发现,欺诈客户预测为忠实客户的误分类成本越高,模型寻找欺诈客户的能力就越强,实际欺诈客户中预测为欺诈的数目就越多,但同时忠实客户中预测为欺诈的也会有所增加,这也导致准确率会有一定的下降。考虑到对客户欺诈的预测能力和预测准确率,经过多次实验得出把欺诈客户预测为忠实客户的误分类成本设置为1.4,把忠实客户预测为欺诈客户的误分类成本设置为1,具体实验数据和设置图如下。这样模型对欺诈客户的预测能力、预测准确率、误分类代价都在移动通信运营商可接受范围之内。
决策树规则如下:
(1)月通话增长率离散值为1,客户信用度离散值为bad,在网月数离散值为1,的客户,也即在网月数小于3个月,客户信用度值小于0,月通话增长率不大于389%的客户,这在现实中也有很强的解释性,一般这类用户都是一些对行人等提供固定电话拨打的私人业主,他们一般入网时间短、信用度差,且一旦话费增长过多,就会恶意欠费,然后再用其他的身份证来办理固定业务。
(2)月通话增长率离散值为1,客户信用度离散值为bad,在网月数离散值为2,的客户,也即在网月数在3-6个月之间,客户信用度值小于0,月通话增长率不大于389%的客户为忠实客户,这在现实中有很强的解释性,这时客户已对服务和产品已经认可,所以即使由于特殊情况月通话增长费有比较大的增加,也会继续使用。
(3)月通话增长率离散值为1,客户信用度离散值为good的客户,也即客户信用度值大于10,月通话增长率不大于389%的客户为忠实客户。
(4)月通话增长率离散值为2,3,4,5的客户,即月通话增长率大于389%的客户为欺诈用户,等等。其他规则不再详述。
最后,建模的整体流程图如下:
五、结论
本文采用了决策树的方法进行建模。首先通过客户通话账单的历史记录构造满足一定比例的欺诈用户数与非欺诈
用户数的训练集,然后运用基于决策树分类的方法构建出欺诈预测模型,最后用测试集数据进行模型验证,结果表明,此模型具有较好的预测准确率。
参考文献:
[1]赵瑞锋、孟祥武,数据仓库技术及其在电信反欺诈中的应用[J].计算机应用研究.2004(2).
[2]W H Inman. Building the Data Warehouse. Second Edition[M]. Jo
hn Wiley&Sons,Inc. 1996.
[3]刘辉,基于贝叶斯分类技术的电信客户欺诈分析[D].西南交通大学,2005.
[4]周涛、李海军、陆惠玲,现代电子技术基于数据挖掘技术的客户关系管理研究[J]. 2004 (11).
[5]Clementine User Guide[M],SPSS,2003.
作者简介:
张一凯,男,汉族,江苏,爱立信爱尔兰,硕士,工程师,主要研究方向:移动通信网络管理软件系统。