论文部分内容阅读
我国进入全民医保时代,医疗保险制度覆盖范围不断扩大,受益人群不断增多。这给人们的就医带来方便,人们可以携卡就医,即时结算。但是,也有部分非法分子暗中进行医疗保险欺诈行为。医保欺诈的行为有很多种,异常共现就医欺诈行为是一种较为常见的骗保行为,通常表现为欺诈者非法使用多个他人的医保卡,通过多次倒卖药品非法套取医保基金。这种欺诈行为具有两种特点:一是这些被欺诈者占据的医保卡,多次在相同时间相同地点消费;二是欺诈者为方便倒卖药品,通常购买类似的药物。通常,因为可能有医疗机构人员的参加,或者医保政策的公开性,使得这种行为通常和普通正常参保人群的就医行为类似,很难识别。但是,异常共现就医行为给医保基金带来的损失越来越巨大,比如2017年宁波市药贩子勾结几十名退休参保职工,倒卖药品,损害医保基金90万余元,针对异常共现就医欺诈行为的识别变得日益紧迫。目前有一些欺诈行为识别方法,比如基于聚类的、频繁模式挖掘的方法。这些方法通常不能完全考虑到异常共现就医欺诈行为的两个特征,会误判正常的就医行为,导致不能精确地识别欺诈行为。因此,如何精准地识别异常共现就医欺诈行为是一个挑战。为了尽可能精准地识别异常共现就医欺诈行为,不漏检,也不误判,因此挖掘的患者群体必须同时符合该欺诈行为的两个特征,即频繁地在相同时间相同地点就医,又购买类似药物。聚类方法是一种常用的数据分析方法,通过聚类得到离群点作为异常值来识别欺诈。以往的聚类方法通常基于数据对象的特征维度进行全局聚类,比如患者可以根据其购买的药物生成one-hot向量表示,聚集到一个簇中的患者具有相似的医药处方。双聚类方法能够将数据对象和特征维度同时进行聚类,比如在行代表患者、列代表药物的矩阵中,矩阵中每个元素表示患者购买药物的数量,双聚类方法可以挖掘矩阵中的子矩阵。这些子矩阵的行对应的患者具有相似的医药处方,这些患者的医药处方包含的药物对应子矩阵的列。类似的,双聚类方法可以挖掘频繁在相同时间相同地点就医的患者群体,只要构建行代表患者、列代表就医时间地点维度的矩阵。因此,提出了两种基于双聚类欺诈检测方法,单视图双聚类欺诈检测方法和多视图双聚类欺诈检测方法。单视图双聚类欺诈检测方法(Biclustering-sim)中,首先构建患者-就医时间地点维度矩阵,通过双聚类方法挖掘频繁相同时间相同地点就医的可疑患者群体以及他们可疑的就医记录,然后再根据这些可疑的就医记录计算这些可疑患者群体之间医药处方相似度,将与其他患者医药处方不相似的正常患者过滤,最终更加精准地得到欺诈患者。但是,这种方法存在不足,双聚类可能将不同组的欺诈者或者和正常患者聚集在一起,挖掘到的可疑的就医记录不是欺诈者欺诈的就医记录,导致影响后续医药处方相似度计算,可能遗漏欺诈者。多视图双聚类欺诈检测方法(Multi-view biclustering-sim)是单视图双聚类欺诈检测方法的扩展,弥补了单视图双聚类欺诈检测方法的不足。它通过构建患者-就医时间地点维度矩阵视图和患者-药物矩阵视图,在这两个视图中进行双聚类,得到跨视图一致的患者群体,也就是即频繁相同时间相同地点就医,又医药处方相似的欺诈患者群体。文中使用了来自山东省莱芜市的医疗保险数据,包含七千多位患者和十九万余条就医记录。根据真实的异常共现就医欺诈案例,通过合成符合异常共现就医欺诈行为的就医记录插入真实数据中,模拟了多个合成数据,来评估两个欺诈检测方法的有效性。为了使合成数据更加符合真实性,对于每一位欺诈患者将会按照一定的比例随机删除部分欺诈数据。在合成数据实验中,与三个对比方法相比,单视图双聚类欺诈检测方法将频繁相同时间相同地点就医的正常患者过滤掉,能够更加精准地识别欺诈者,降低误判率。多视图双聚类欺诈检测方法效果优于单视图双聚类欺诈检测方法,因为前者弥补了后者的不足。最后,本文的方法应用于真实的医保数据,并从中挖掘了四个可疑的患者群体。