论文部分内容阅读
因电子商务的蓬勃发展应运而生的第三方支付公司解决了网上交易买卖双方的交易风险和信任问题。但是支付公司自身的运营也带来了很大的用户风险,尤其是第三方支付平台的信用卡还款产品,在为用户带来方便的同时,也出现了产品用户利用产品进行诈骗,洗钱和套现等金融违法行为,使得银行不良贷款增多,无辜用户蒙受损失。这一问题的出现,不仅影响了信用卡还款产品,第三方支付企业自身,和银行信用卡业的健康发展,而且会干扰正常的市场秩序。要解决这一问题,防止用户利用信用卡还款产品进行违规操作,第三方支付公司必须全面掌握用户的行为记录和背景信息,因为用户风险问题的根源是企业与用户之间的信息不对称。但是由于第三方支付公司面对的信用卡还款产品用户数量非常庞大,且变化十分迅速,公司不可能使用传统的方法逐一检查用户的产品使用行为记录和个人背景信息,而必须使用高效和自动化的数据库挖掘工具,扫描用户行为,找出那些高度可疑的潜在违规用户进行调查,及时制止这部分用户的违规行为,防止危害的进一步扩大。
数据挖掘是很好的处理大量数据,从中挖掘信息和知识的工具。对与信用卡还款产品来说,存在违规行为的用户在整个用户数据库中所占比例较小,且这部分用户的还款行为以及个人背景信息往往表现出异常,与正常的产品用户很不一样,如果将整个产品用户数据库视为一个点集,这部分用户就可以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点与正常点之间的差异性而找到它们,从而进一步发现潜在违规用户。事实上一直以来,孤立点挖掘算法也因其科学性,高效性和灵活性被广泛用于信用卡诈骗监测和设备故障探测等领域。论文对各种孤立点挖掘算法进行比较后,根据第三方支付公司用户风险问题的实际情况,采用基于分辨率的孤立点挖掘算法(RB算法),建立了用户评估模型。RB算法最主要的优点是无需引入参数,而且适用于处理高维和海量的数据库。但是RB算法仅从数据集全局出发找寻孤立点,会导致孤立点的寻找过程忽略了数据点所在的类的密集度对点的孤立程度的影响,对孤立点之间的孤立程度比较也不够。本文的创新点在于在RB算法的基础上提出了密集度加权的分辨率孤立点挖掘算法(WRB算法),WRB算法计算每个孤立点相距最近的类的稠密度测度作为分辨率的权重。从全局和局部出发,综合考虑数据点周围的点的个数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立程度因子。在权重的设置上,利用了RB算法已内嵌的分辨率和类特征值,保持了WRB算法的无参数性质,并使得孤立点的挖掘和孤立程度排序更为精确和符合实际情况。
最后论文采用第三方支付公司的真实用户数据,在清洗和属性筛选的基础上建立用户风险监测模型,分别使用Clementine数据挖掘软件,和在eclipse平台上用JAVA语言编译的RB算法和WRB算法对数据进行运行测试。经实验证明,WRB算法可以很好的挖掘潜在的违规用户,且挖掘准确度高于RB算法以及当前普遍使用的数据分析方法。