论文部分内容阅读
近几年来,我国对医保问题高度重视,医保管理体制不断完善,基本实现了“人人享有基本医疗保险”的目标。随着医疗保险管理系统的运行,系统中的数据量将会逐渐变得庞大。由于医疗保险管理系统是由人为进行管理,难免会出现录入错误的现象。在集成的系统中,由于数据是来自多个不同的数据源,会出现数据的表示方式不一致和发生异常等情况。此外,因为医保管理体制的漏洞,重复参保的情况普遍存在。由于这些原因,数据库中的“脏数据”随着日积月累也会慢慢增多,影响了系统的正常运行。因此,对医疗保险管理系统的“脏数据”进行数据清理显得十分重要。首先,本文介绍了数据质量的概念、数据质量问题和衡量指标,阐述了数据清理的概念、原理和基本步骤。对各种数据清理策略进行了介绍和分析。其次,本文对医疗保险管理系统的进行了数据分析和数据清理技术的选择。讨论了医疗保险管理系统的产生,介绍了系统的一些主要功能模块;对医疗保险管理系统中的数据问题进行讨论和分析,从医疗保险管理系统对于数据清理的实际需求考虑,分析了几种相似重复检测算法的优劣,根据系统中存在的“脏数据”的主要特点,确定了SNM法为核心的相似重复记录清理技术。然后,本文结合医疗保险管理系统的数据和需求的特点,对计算记录相似度的计算方法和SNM方法进行改进。通过实验分析,对算法的改进进行总结,提出了相似重复记录、不完整记录和异常记录的处理方式。最后,本文设计了数据清理功能模块,并且把它嵌入到某医疗保险管理系统中进行了实际应用,较好的解决了该医疗保险管理系统中存在的数据质量问题。