面向医保基金风险防控的数据准备技术研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:Arqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医保基金风险防控平台要系统地识别和衡量医保基金管理过程中存在的各类风险,并通过选择和运用适当的管理手段避免及应对这些风险。它本质上是一个决策支持系统,是知识发现与数据挖掘(KDD)的一个重要应用。而数据准备是KDD过程中非常重要的一个环节,它为数据挖掘算法提供高质量的数据。本文针对医保基金风险防控平台构建过程中存在的数据源类型复杂、元数据管理混乱、ETL过程难以控制和维护、存在数据缺失等问题,对相关的数据准备技术进行了研究和工具实现。本文首先分析了源数据和目标数据的种类、内容,总结了医保业务系统中存在的数据质量问题,设计了相应的ETL策略和元数据管理策略。对数据清洁问题的缺失值问题进行了较深入的研究,提出了一种新的缺失值填充算法,然后设计了正则表达式和模式匹配算法对半结构化源数据进行抓取、清洁和解析,接着对原有的ETL方法做了改进,建立了ETL过程中的元数据管理模型和医保元数据资料库,同时设计并实现了医保网络爬虫和一个具备元数据管理功能的医保专用ETL工具,该工具已经在医保基金风控实验平台中得到应用,经实践对比后表明,它有可视化程度高、开发成本低、便于ETL设计和维护等优点,弥补了现有方法的不足,而元数据管理方面也克服了原来平面文件维护方式中存在的一致性差、难于理解和维护等缺点,具有元数据集中管理、支持查询和血缘分析等特性,为后续医保基金风险防控方法库和模型库的建立提供了数据质量保证
其他文献
随着视频采集、存储设备的广泛使用和网络传输性能的不断改善,国家重点支持的数字视频产业在电视、网络、手机等载体上发展迅速。面对如此繁多庞大的视频,人们期盼着出现一种
网格的主要目的是建立基于网络(如互联网)的跨自治域资源共享和协同问题求解的分布式虚拟环境。网格资源发现是网格系统的重要部分,而资源组织是进行有效地资源发现的前提。
医学图像分割是获得人体组织、器官以及病变体的三维图像、仿真手术等后续处理的基础,它在医学影像处理与分析中具有特殊重要的意义,是医学图像处理的关键一步,是跨越医学和计算
遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,具有通用性强、适应面广、鲁棒性强,易于并行化等优点,已被广泛用于函数优化、组合优
由于计算机科学与技术的发展,使得计算机越来越融入现代人的生活。从实现最简单的计算功能到人工智能,人们对于计算机的要求变得越来越复杂。其中最常见的要求之一就是从互联
随着计算机科学和信息技术的飞速发展,检测技术已经成为了一种关乎经济发展和科技进步的关键技术。信息的检测是基于信息可测的基点上,而目前信息可测直接依赖于传感器和环境
算法运行的高效性是衡量算法优劣的一个重要标准。分布式互斥请求集的长度、对称性以及生成的难易程度都直接影响着生成该请求集的分布式扶持算法的时间复杂度、对称性和算法
随着能源需求的不断增长,太阳能作为一种清洁环保的可再生资源,逐渐开始被广泛利用。太阳能电池在制作过程中通常需要通过严格的质量检测,如是否存在物理破损、表面划痕,是否存在断栅,印刷图案是否清晰正确等问题。传统工业模式下,这些检测工序需要检测人员人工目测,人工检测不仅检测效率低下而且容易出现因视觉疲劳和主观臆断造成检测错误情况。近年来随着计算机技术和数字图像处理技术的快速发展,使得利用机器视觉对太阳能
社区电子服务通过建立在公共网络上的虚拟专用网(VPN),为社区用户提供简便、快捷的综合服务,它凝聚了电子商务、网络安全、网络管理、通信技术等领域的高科技成果。在社区电
随着互联网的普及和电子商务的快速发展,电子商务系统提供更多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己所需商品。电子商务