医疗报销异常行为挖掘研究及应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:jinyu1016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国医疗行业信息化的不断深入,医疗数据已呈现爆炸增长的趋势,从海量医疗数据中挖掘出有用的信息受到越来越多学术界研究人员的关注,特别是隐蔽性高、危害大的医疗欺诈行为挖掘。然而现有的异常检测技术在面对高维、不平衡、含有混合数据的数据集时因考虑片面往往性能欠佳,因此一种高准确率高效率的异常检测方法对医保行业具有重大意义。本文综合考虑了某地医疗报销数据集的特点,将医疗欺诈与数据挖掘相结合,提出了一种两段式的混合算法模型MAVF-CIForest,并设计与实现了基于Spark的医疗报销异常行为检测系统。主要工作有以下几个方面:(1)针对数据集中高维度和不平衡的特点,提出了一种基于重采样的集成特征子空间选择方法,较大地提升了对正类样本有利的特征选取概率,同时采用基于分层采样的特征选取,保证了集成模型的多样性。实验表明,本文采用的特征子空间选择方法在面对高维、不平衡的医疗报销数据集下效果优秀,并且使后续算法模型相较未进行特征选择准确率提升了90%。(2)针对数据集中出现的混合数据,提出了一种两段式的集成算法模型MAVFCIForest。其中MAVF处理分类数据,处理后的结果连同连续数据一起作为CIForest算法的输入,通过改进的随机超平面构造函数、加权投票策略以及优化模型选择方式和组合方式,提高了算法在面对不平衡数据时的检测性能。实验表明,本文算法在面向不平衡数据准确率最大提升了22%,面向混合数据准确率提升了3%。(3)对算法模型进行并行化处理,设计并实现了基于Spark的医疗报销异常行为检测系统。系统中包含有本文提出的MAVF算法和CIForest算法,同时还有信息增益率算法。这些算法对用户可见,用户使用系统时可以自行导入待测数据,并能根据不同的数据集和场景,调整参数实现数据的异常检测,最后通过可视化模块展示相应的检测结果。
其他文献
现就流行性脑脊髓膜炎的病原学、流行病学、机体反应过程、临床情况及预防与治疗的关系作一综述.
详尽的介绍了多伦煤化工公司产生"穿越电量"的原因和造成的影响,并提出了相应的解决和处理方法,避免了因无法计量产生的经济损失,可为存在类似问题的公司提供有益借鉴。
余额宝规模的快速增长引起了其是否推高资金利率的争议,本文认为,这一争议没有触及问题的根本,关键要点应在于余额宝是否会使资金利率失衡,以及余额宝是否会在另一个重要层面
宝宝,请将右页中的图形剪下,并尝试给它们按照不同的规律进行分类吧!
试验选择断奶仔猪(杜×长×大)240头,随机分为5组,每组6个重复,每个重复8头断奶仔猪。其中对照组饲喂基础日粮,试验Ⅰ组、Ⅱ组、Ⅲ组、Ⅳ组饲喂基础日粮分别添加1 000 mg/kg
伴随着电子商务的出现与发展 ,我国的一些高等院校陆续开始了电子商务实验室的建设 ,以加强在电子商务方面的研究与人才培养。文章探讨电子商务实验室建设的目的 ,实验室所应
变频器具有稳压、调速、调压、调频等功能,它应用了现代科学与技术,虽然价格昂贵、内部结构复杂,但其性能良好、使用简单,所以变频器不只是用于电动机,其不同的功率、外形、体积在
目的探讨阿昔洛韦联合纳洛酮治疗小儿病毒性脑炎的临床疗效及安全性。方法将2012年1月至2014年10月所收治的100例小儿病毒性脑炎患者随机分为治疗组和对照组,每组30例。对照
以珠江口盆地白云凹陷钻井、测井、地震和古生物资料为基础,结合前人研究成果,系统的分析了白云凹陷晚渐新统到早中新统沉积相发育特征及凹陷沉积充填演化过程。研究结果表明,珠
:大学生就业在任何时期都是人们争论的焦点。就业是民生之本,是稳定人民生活的重要保障。适者生存,时代前进,正确及 时把握机会,合理辨别分析工作任务,对行业发展具有敏锐嗅