基于关系网与主动学习的医保欺诈识别系统研究及应用

来源 :深圳大学 | 被引量 : 0次 | 上传用户:ly6624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社会老龄化加剧及经济下行的压力加大,医保基金收入逐步放缓。与此同时,国家医保制度在不断完善,医保参保范围逐步扩大,医疗需求得到大量释放,使得医保基金支出增长连续高于收入增长,许多地区已出现入不敷出,甚至严重赤字的情况。另一方面,由于医疗保障基金制度及监管体系不健全,使得不法分子较为容易骗取医保资金进行套现,各种医保欺诈案例层出不穷。如何有效保障医保资金安全、有效地使用,已逐渐成为社会各界研究的热点。由于医疗数据的敏感性以及数据样本的特殊性,传统的医保欺诈研究方法已经不适当前的现状,现研究的主要困难有:(1)医保欺诈手段层出不穷,近期更是出现了团伙作案,且操作极为隐蔽,从常规数据维度中已经很难看出端倪;(2)现有的医疗数据中,已经被判断为欺诈的患者很稀缺,而未知欺诈与否的数据是海量的,很自然就出现了机器学习中常见的数据样本标签不足的问题,现有的解决方案都受限于数据本身,很难提高模型的泛化能力;(3)现有的医保欺诈文献中,大多只用到了就诊医疗数据,而忽视了就诊行为中所产生的社会关系这一个重要信息。针对以上问题,本文提出了一种基于关系网与主动学习的医保欺诈检测解决方案,充分考虑了病人医生关系网中的潜在信息,并以图卷积神经网络(GCN)算法为基础,提出了OCGVAE医保欺诈检测框架,OCGVAE是一个单分类检测算法,通过借助病人医生关系网这个信息弥补样本不平衡的问题,实现了小数据训练样本下的医保欺诈检测;为了解决人工标记成本高的问题,本文提出主动学习策略去标注医保数据,实现了在标注较少数据样本的情况下就能达到理想的分类效果。主要创新和研究工作概括为以下几个部分:(1)提出了病人-医生关系网模型。本文分析现有的欺诈案件,发现欺诈病人之间可以直接或者间接的通过医生这个纽带关联起来,并通过建立病人-医生数学关系,来提高模型的分类效果。实验证明,在使用病人医生关系网的算法中能达到更高分类准确率,准确率平均高出19%。(2)提出了GCN算法处理医保欺诈检测问题。本文有效且合理的利用了患者在就医过程中所产生的社会关系网络,GCN算法利用这个网络信息,学习网络节点之间的拓扑信息,能够即使在小数据标签下,也达到了理想的分类准确率。(3)本文改进变分自编码(VAE)算法的解码层,结合医保欺诈真实数据集,提出OCGVAE医保欺诈检测框架。OCGVAE算法的输入是欺诈样本标签以及整个病人医生关系网(包括节点所有的节点信息和节点之间的权重信息),该算法是一种单分类算法,解决了样本标签极度不平衡的问题。同时该模型具有边预测能力,其准确率达到80%。(4)提出了通过主动学习策略帮助医保欺诈数据标注,减少人工成本。本文设计了三种数据选择标注策略,分别是最大熵(MEs)、最大概率(MPs)和随机(Rs)选择策略。设计了学习率为0.1、0.01以及分类器阈值0.5、0.8时的四组对比实验,本文提出的MEs数据标注策略在各组参数中都能取得最好的效果,证明了基于最大熵策略能有效的减少人工标记成本,准确率达到97%。
其他文献
近年来,人工智能技术逐步渗透到生活的各个方面,人们的生活因人工智能而发生着日新月异的变化。基于深度学习的实时行人检测技术作为人工智能的基础应用,为安防、自动驾驶、
现代社会,预测人群场景中的群体行为,得到多个人群之间交互的未来轨迹已经成为复杂场景下的研究热点,在计算机视觉等领域中引起了广泛的关注,基于现有的轨迹预测框架,结合各
目前,在我国轨道交通中,电力牵引交流传动控制技术已经得到普遍应用。在系统开发过程中,国内外的很多科研机构使用基于“能量互馈”的牵引及电气制动试验平台,检验所设计的列
随着复合材料的快速发展以及飞行器轻量化小型化的要求,除了需要设计更多与飞行器共形的天线元件,以减少突出结构天线形式对空气动力学的影响外;同时还需要赋予天线结构具有
现如今,软件的数量和代码量呈爆炸式增长,随之而产生的安全性问题也引起越来越多的关注。程序员的一个不经意的小错误可能会引发严重的后果,影响到软件运行的稳定性和用户使
摘 要:推进村级党组织领导法治化是实现乡村治理体系和治理能力现代化的必然要求,是在乡村治理中实现党的领导、人民当家作主和依法治国有机统一的根本途径,对于坚持和加强村级黨组织领导,保证村民自治的有效运行,推进法治乡村建设具有重要意义。在村民自治背景下推进村级党组织领导法治化需要着力解决以下关键问题:完善村级民主决策的法律机制,通过合法途径将村级党组织的意志上升为村庄的公共意志;全面贯彻落实党管干部原
飞机装配是产品生命周期中的重要环节,与产品性能、质量等因素密切相关。目前,飞机装配工艺设计大多以二维图纸为依据,其方法可视化效果差,而应用三维模型可以形象的、直观的
在计算机视觉、模式识别与机器学习领域中图像场景分类扮演着非常重要的角色。图像场景分类广泛应用于很多个领域,如目标识别和行为检测。但是,对于单个物体实例来说,通常会
探索与利用的均衡一直是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其当前对于环境的认知来做出当前最优决策。强化学习通
石油产品自20世纪初就成为了工业生产的重要原料,由于泄露、偷排、意外事故等原因,它们进入环境造成污染并严重地威胁着人类健康。这些难溶于水有机液态污染物进入地下环境后