论文部分内容阅读
当前,医保违规情况较为严重,医保基金被滥用、浪费的数目惊人。如果能从医保数据中自动、智能地检测出可能违规的行为,将大大减轻人工审核的负担。为解决该问题,本文对某地区医保中心的数据进行分析,将问题归结为找出违规可能性较大的“可疑”处方,排除大部分正常处方,以达到减少人工审核量的目的。本文主要工作有: (1)算法研究方面,提出了两种基于高效剪枝的离群点检测算法。已有基于距离的离群点检测方法因其简单、直观而被广泛应用,然而该类算法需要大量距离计算,因此,如何在精度损失最小化的前提下降低算法时间复杂度已成为一个亟待解决的课题。在已有研究的基础上,本文引出并证明了若干剪枝定理,提出了单阶段两次剪枝的快速离群点检测算法(MFO),实验结果显示,该算法能在确保精度的前提下接近或优于理想情况下的ORCA算法。 为进一步提高MFO的执行速度,本文提出了一种优化MFO算法初始剪枝阈值的预估剪枝半径(阈值)策略,通过随机抽样并计算样本集的离群度来估计剪枝半径。基于该方法,本文提出了QMFO算法,实验结果显示,该算法能在精度损失很小的情况下达到线性时间复杂度。 (2)医保审核中智能方法的应用研究方面: 1)对医保数据进行预处理分析,解决其高维稀疏问题,并将提出的MFO算法应用于白内障、胆结石、阑尾炎三种疾病的病例处方检测。与基于密度离群点检测算法(LOF)的实验对比显示,MFO算法能检测出大部分的“可疑”处方,优于LOF算法。此外,本文提出了一种面向医保审核的属性权重计算公式,以提高检测的准确率; 2)针对白内障、胆结石两种病例,本文采用神经网络建立了“疾病-药物种类”模型(“D-M”模型)和“疾病-诊疗项目费用”模型(“D-O”模型),以就诊的基本信息作为输入,输出药物种类是否使用(D-M模型)和各诊疗项目的费用(D-O模型),实验结果显示,该类模型具有较好的效果。 3)针对医保数据分类问题,本文在有标记医保数据上应用了朴素贝叶斯和Logistic回归算法,分析和测试了分类效果。实验结果显示,在有标记的情况下,采用这两种算法能够有效地进行可疑处方检测。