论文部分内容阅读
随着医疗改革的不断深入,医疗保险的覆盖面不断扩大,医疗保险参保人数也正在迅速增加,与此同时,医保欺诈违规行为也在日益增多,其形式和手段也不断的在翻新,对医疗保险基金的安全稳定发展造成了极大的影响,社会危害极大。由于医保数据具有海量性、多样性、生成快速等大数据的特征,因此传统方法检测识别欺诈的工作量大、效率低下,而且容易出现差错。如何利用这些海量的数据,能够自动高效地检测识别出这些骗保或欺诈行为,是具有重要现实意义的。本文运用数据挖掘技术处理海量医保记录数据,实现医保欺诈检测识别,主要有以下几个方面工作:(1)针对单张处方药费过高等记录具有孤立点分布的特征且医保欺诈行为不存在模仿性和学习性,本文提出了一种基于指标权重的欧氏距离来刻画数据之间相似度的方法。考虑到现有的相关工作多采用基于统计思想或神经网络等有监督学习的分析方法,这种方式通常是需要人工进行欺诈数据标注,但实际上医保记录数据具备大数据的相关特征,数据量大且不具备先验知识,所以本文先对处理后的数据进行主成分分析,计算主成分旋转矩阵与累计方差贡献率得到各个主成分的权重值,通过定义一个衡量指标权重的因子,进而得到每个原始指标的权重值,再执行聚类操作,从而实现孤立点检测。实验结果表明在与文献中的算法相比取得了较为相近的权值,通过检测出的疑似欺诈记录也较为接近,同时本文提出的算法大大缩短了算法执行时间,提高了数据处理效率。(2)针对已经确定为医保欺诈记录的数据而言,将其转化为二分类问题进行分类识别研究,本文利用参数优化的思想对支持向量机算法中的惩罚因子c与径向基核函数中的分类参数g进行优化,提出了一种改进的支持向量机算法(GASAAPSO_SVM)。其中采用遗传算法和粒子群算法在算法执行过程中得到的各自群体最优解进行实时判定,同时引入调和惯性因子对粒子群算法容易陷入局部最优进行改进,采用模拟退火算法中Metropolis准则对粒子群算法后期局部搜索能力进行优化,从而寻求总体最优解作为SVM的参数输入并对数据集进行训练获得SVM分类模型。(3)为了使评价结果更加客观,本文利用了含有更多信息的评价指标来进行算法效果度量,包括分类正确率、召回率、灵敏度、精度差异、AUC等。在实验中,首先将其应用在美国威斯康星州医学院的乳腺癌数据集上进行算法验证,实验结果表明在60%,70%和80%的训练占比数据集上,算法的精确率、召回率、灵敏度、F-measure等指标在对比算法中都是较高的,分类正确率也有不同程度的提高。最后在医保欺诈记录数据集上进行实验,主要对本文所提出的方法的整体分类效果进行分析,另外还探讨了不同算法中得到的参数的差异性。实验结果表明,本文所提出的算法在对医保欺诈记录的分类识别中,分类正确率更高,在其余的评价指标中也取得了较好的效果,说明本文方法在医保欺诈记录分类识别方面具有可行性和有效性。