论文部分内容阅读
在这样一个信息技术迅速发展的大数据时代,传统行业面临着巨大挑战。各行业在大数据浪潮的冲击下开始尝试改变传统经营模式时,大型金融机构站在了信息价值链的最好位置。通过为小型金融机构和商家客户提供服务,他们能够直接获得大量的交易信息和顾客的消费信息。他们的商业模式从单纯的处理支付行为转变为收集数据并挖掘其潜在价值。中国银联作为中国银行卡联合组织,处于我国银行卡产业的核心和枢纽地位,占据了收集数据和挖掘数据价值的黄金位置。围绕其核心数据所设立的“金融大数据应用研究”项目也随之展开。本文主要利用数据挖掘技术开展了“金融大数据应用研究——商户类别码套用检测算法研究”的工作。其中主要的研究内容分为基础研究和应用研究两部分:(1)在数据挖掘技术上展开基础创新工作,对聚类算法进行了大量的研究,并提出了新的聚类算法——“基于寻根的快速层次聚类算法”(RS算法)。该算法以贪心的策略通过迭代的搜索最近邻的方式,寻找位于数据密集区域的核心点(根节点)。与此同时,将遍历过的点连接起来,建立子树从而完成聚类。我们选择了两个经典的聚类算法进行对比实验。实验结果表明,在大部分数据集上,RS算法优于其他两个经典算法。通过复杂度分析,RS算法具有线性复杂度。(2)开展了大量“商户类别码套用检测算法研究”的工作,并提出了一套完整的商户类别码套用检测模型。在文中我们对数据集进行了大量的样本分析,并发现了商户交易数据中存在的规律性,提出了“行业模式”和商户“行为模式”的概念。我们利用行业模式与商户行为模式的差异性计算出多个基于行业间差别和基于行业内差别的参数,并将这些参数作为特征组成特征向量训练分类模型从而完成套用商户的识别。我们选择了5个分类算法在4个数据集上进行了实验。实验结果表明我们提出的商户类别码套用检测模型切实可行,在3个数据集上的准确率和召回率都达到80%以上。综上所述,本文在数据挖掘技术上进行了理论创新工作,并结合了在金融领域进行数据挖掘的应用场景提出了“商户类别码套用检测模型”。并且通过大量实验验证了文中所提出的算法和模型的有效性。本文的研究丰富了数据挖掘领域,并在金融领域欺诈检测方向上提供了有意义的参考。