论文部分内容阅读
随着我国医疗行业信息化的不断深入,医疗数据已呈现爆炸增长的趋势,从海量医疗数据中挖掘出有用的信息受到越来越多学术界研究人员的关注,特别是隐蔽性高、危害大的医疗欺诈行为挖掘。然而现有的异常检测技术在面对高维、不平衡、含有混合数据的数据集时因考虑片面往往性能欠佳,因此一种高准确率高效率的异常检测方法对医保行业具有重大意义。本文综合考虑了某地医疗报销数据集的特点,将医疗欺诈与数据挖掘相结合,提出了一种两段式的混合算法模型MAVF-CIForest,并设计与实现了基于Spark的医疗报销异常行为检测系统。主要工作有以下几个方面:(1)针对数据集中高维度和不平衡的特点,提出了一种基于重采样的集成特征子空间选择方法,较大地提升了对正类样本有利的特征选取概率,同时采用基于分层采样的特征选取,保证了集成模型的多样性。实验表明,本文采用的特征子空间选择方法在面对高维、不平衡的医疗报销数据集下效果优秀,并且使后续算法模型相较未进行特征选择准确率提升了90%。(2)针对数据集中出现的混合数据,提出了一种两段式的集成算法模型MAVFCIForest。其中MAVF处理分类数据,处理后的结果连同连续数据一起作为CIForest算法的输入,通过改进的随机超平面构造函数、加权投票策略以及优化模型选择方式和组合方式,提高了算法在面对不平衡数据时的检测性能。实验表明,本文算法在面向不平衡数据准确率最大提升了22%,面向混合数据准确率提升了3%。(3)对算法模型进行并行化处理,设计并实现了基于Spark的医疗报销异常行为检测系统。系统中包含有本文提出的MAVF算法和CIForest算法,同时还有信息增益率算法。这些算法对用户可见,用户使用系统时可以自行导入待测数据,并能根据不同的数据集和场景,调整参数实现数据的异常检测,最后通过可视化模块展示相应的检测结果。