基于双聚类的异常共现就医欺诈行为识别方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：AllFree

【摘要】

：

【作者】

：

李瑞璨

【出处】

：

山东大学

【发表日期】

：

2020年12期

【关键词】

：

医保欺诈异常共现就医欺诈行为双聚类异常检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我国进入全民医保时代,医疗保险制度覆盖范围不断扩大,受益人群不断增多。这给人们的就医带来方便,人们可以携卡就医,即时结算。但是,也有部分非法分子暗中进行医疗保险欺诈行为。医保欺诈的行为有很多种,异常共现就医欺诈行为是一种较为常见的骗保行为,通常表现为欺诈者非法使用多个他人的医保卡,通过多次倒卖药品非法套取医保基金。这种欺诈行为具有两种特点:一是这些被欺诈者占据的医保卡,多次在相同时间相同地点消费;二是欺诈者为方便倒卖药品,通常购买类似的药物。通常,因为可能有医疗机构人员的参加,或者医保政策的公开性,使得这种行为通常和普通正常参保人群的就医行为类似,很难识别。但是,异常共现就医行为给医保基金带来的损失越来越巨大,比如2017年宁波市药贩子勾结几十名退休参保职工,倒卖药品,损害医保基金90万余元,针对异常共现就医欺诈行为的识别变得日益紧迫。目前有一些欺诈行为识别方法,比如基于聚类的、频繁模式挖掘的方法。这些方法通常不能完全考虑到异常共现就医欺诈行为的两个特征,会误判正常的就医行为,导致不能精确地识别欺诈行为。因此,如何精准地识别异常共现就医欺诈行为是一个挑战。为了尽可能精准地识别异常共现就医欺诈行为,不漏检,也不误判,因此挖掘的患者群体必须同时符合该欺诈行为的两个特征,即频繁地在相同时间相同地点就医,又购买类似药物。聚类方法是一种常用的数据分析方法,通过聚类得到离群点作为异常值来识别欺诈。以往的聚类方法通常基于数据对象的特征维度进行全局聚类,比如患者可以根据其购买的药物生成one-hot向量表示,聚集到一个簇中的患者具有相似的医药处方。双聚类方法能够将数据对象和特征维度同时进行聚类,比如在行代表患者、列代表药物的矩阵中,矩阵中每个元素表示患者购买药物的数量,双聚类方法可以挖掘矩阵中的子矩阵。这些子矩阵的行对应的患者具有相似的医药处方,这些患者的医药处方包含的药物对应子矩阵的列。类似的,双聚类方法可以挖掘频繁在相同时间相同地点就医的患者群体,只要构建行代表患者、列代表就医时间地点维度的矩阵。因此,提出了两种基于双聚类欺诈检测方法,单视图双聚类欺诈检测方法和多视图双聚类欺诈检测方法。单视图双聚类欺诈检测方法(Biclustering-sim)中,首先构建患者-就医时间地点维度矩阵,通过双聚类方法挖掘频繁相同时间相同地点就医的可疑患者群体以及他们可疑的就医记录,然后再根据这些可疑的就医记录计算这些可疑患者群体之间医药处方相似度,将与其他患者医药处方不相似的正常患者过滤,最终更加精准地得到欺诈患者。但是,这种方法存在不足,双聚类可能将不同组的欺诈者或者和正常患者聚集在一起,挖掘到的可疑的就医记录不是欺诈者欺诈的就医记录,导致影响后续医药处方相似度计算,可能遗漏欺诈者。多视图双聚类欺诈检测方法(Multi-view biclustering-sim)是单视图双聚类欺诈检测方法的扩展,弥补了单视图双聚类欺诈检测方法的不足。它通过构建患者-就医时间地点维度矩阵视图和患者-药物矩阵视图,在这两个视图中进行双聚类,得到跨视图一致的患者群体,也就是即频繁相同时间相同地点就医,又医药处方相似的欺诈患者群体。文中使用了来自山东省莱芜市的医疗保险数据,包含七千多位患者和十九万余条就医记录。根据真实的异常共现就医欺诈案例,通过合成符合异常共现就医欺诈行为的就医记录插入真实数据中,模拟了多个合成数据,来评估两个欺诈检测方法的有效性。为了使合成数据更加符合真实性,对于每一位欺诈患者将会按照一定的比例随机删除部分欺诈数据。在合成数据实验中,与三个对比方法相比,单视图双聚类欺诈检测方法将频繁相同时间相同地点就医的正常患者过滤掉,能够更加精准地识别欺诈者,降低误判率。多视图双聚类欺诈检测方法效果优于单视图双聚类欺诈检测方法,因为前者弥补了后者的不足。最后,本文的方法应用于真实的医保数据,并从中挖掘了四个可疑的患者群体。

其他文献

基于生理时间序列的冠心病诊断模型研究

冠心病是威胁人类健康的主要疾病之一。临床上冠心病诊断主要依赖人工判读和生化指标等间接诊断方式,这种方法诊断效率低、主观因素强。所以基于生理时间序列的冠心病诊断模型研究具有重要意义,可以辅助医生诊断。然而,已有研究存在诸多不足,如信号处理易受人为干扰、冠心病分类模型使用数据多为单导心电(ECG)信号而临床使用多导ECG、临床目前没有很好的定量诊断指标能够对比病情发展。因此,本文使用信号分析技术、深度

学位

冠心病诊断注意力机制经验模态分解多元经验模态分解多尺度熵

箕子走之朝鲜析

上篇箕子去古朝鲜其人其事辨析箕子受封或逃亡古朝鲜故事,在我国和朝鲜、韩国的史籍中都有反映,本身是老话题,但未见前人对其性质特别是海上交通作过深入探讨,因而是个新解题

会议

冷分子静电表面弯曲导引新方案的研究及其应用

在过去的几十年里,原子与分子物理进入壮观的发展阶段,新颖的气体原子和分子冷却技术发挥着关键的作用。冷原子与冷分子的研究使得原子物理与分子物理连成一体,同时将物理领

学位

分子芯片表面导引蒙特卡罗模拟弯曲导引缓冲气体冷却

业主视角下的EPC项目动态绩效激励机制研究

EPC总承包模式通过实施设计、采购以及施工阶段之间的深度交叉,缩短了工期、节约了投资,近年来在我国受到大力推广。EPC模式下,总承包商相较于传统模式需要承担更高的风险,且业主和总承包商之间存在信息不对称和目标不一致的情况。为了提高自身的利益,总承包商很有可能利用信息不对称采取机会主义行为,从而损害项目产出。激励机制可以通过利益的调整,从经济和心理的角度提高缔约方之间的相互依赖性,使委托人和代理人目

学位

EPC模式激励机制机会主义动态调整贝叶斯统计

刺梨降血糖口服液研发及功能性评价

糖尿病是由于胰岛B细胞受损,胰岛素分泌不足或胰岛素抵抗所引起的糖代谢紊乱疾病。目前,全球20-79岁糖尿病患者人数已达4.63亿,我国糖尿病患者为1.164亿,位居世界第一。2019年,约有420万人(20-79岁)死于糖尿病或其并发症,致死率约占全球全死因死亡的11.3%。目前临床上治疗糖尿病主要依靠注射胰岛素、口服磺酰脲类和双胍类等降血糖药物,但长期服用降糖药会对人体健康产生较大的毒副作用。刺

学位

刺梨降血糖口服液混料设计稳定性

隔板型储热水箱温度分层实验与模拟优化研究

随着中国北方地区城镇的快速发展,建筑能耗日益增加,供热季雾霾现象严重,因此,利用可再生能源的清洁供热技术备受关注。低碳清洁热源如太阳能、风能等具有不稳定性、波动性和

学位

清洁供热隔板型储热水箱温度分层三维瞬态CFD模拟相变储热单元

重冻区沥青路面结构力学特性分析

以重冻区张承高速沥青路面为工程实例,利用Ci CS I多功能路况快速检测系统对张承高速张家口段进行病害情况检测,结果表明张家口路段病害种类主要以纵、横向裂缝及车辙为主,根据常见病害对其产生的原因进行有限元模拟分析,并提出了不同温度下产生的车辙发展公式,通过张承高速部分路段的交通状况调查分析验证本文研究成果。利用路面工程中应用最广泛的ABAQUS有限元软件,根据温度场基本理论,模拟计算了重冻区外界环

学位

重冻区沥青路面温度场ABAQUS移动荷载车辙

上海市高校帆船运动发展现状及影响因素的研究

自上海市体育改革发展“十三五”规划颁布与实施以来,帆船运动便以其新颖、时尚、刺激的特点吸引着众多大学生的踊跃参与,并在当今社会中形成了一股新兴浪潮。时至今日,国内

学位

高校帆船运动发展现状影响因素

小学科学教科书评价指标体系研究

教科书作为教学内容的主要来源之一,在教学过程中起到载体作用。教科书的优劣直接影响着教学目标的达成。由于小学科学课程不断改革,教科书逐步多样化,如何选择合适的教科书

学位

小学科学教科书教科书评价评价指标体系

广西大气污染特征及污染天气分型研究

近年来,随着社会经济的高速发展,城市化进程的加快,大气污染问题日趋严峻。为全面掌握广西大气污染现状,探究不同天气类型对环境空气质量的影响,更好服务大气污染防治工作,开展本研究工作。通过分析2015～2019年广西区域优良率、AQI和首要污染物的变化情况,以及6项污染物(SO2、NO2、CO、O3、PM10、PM2.5)的时空分布,系统地了解广西大气污染特征,基于天气学原理,使主观和客观分型方法特征

学位

大气污染特征污染天气分型污染个例分析

基于双聚类的异常共现就医欺诈行为识别方法研究

与本文相关的学术论文