论文部分内容阅读
医疗数据之中潜藏着的宝贵的信息资源,合理的开发及利用能够为各行各业的发展起到很好的推动作用。因而,医疗信息的发布得到了各界的广泛关注。然而,医疗信息之中囊括了大量的类似于患者生理和心理状况的隐私信息,一旦泄露,必将会给信息所有者留下难以估量的隐患。因此,医疗信息发布中的隐私保护问题引起了专家学者们的重视。就现阶段来看,常见于信息发布系统之中的三种隐私保护手段即属性删除或移除、数据加密以及数据扰乱或数据随机化并不是十分适用于医疗信息的发布。这主要是因为,医疗信息的发布不仅要保证发布数据的可用,还要保障信息所有者的隐私不被泄露,上述一系列隐私保护手段很难兼顾。因而,本文选用了当下较为流行的K-匿名模型来对医疗信息发布加以实现。然而,就实现K-匿名模型的经典算法而言,其自身还有很多有待改进之处。特别是在泛化属性的选取和一些细节的实现方面,欠缺细致的考虑,这就为其所处理的数据埋下了过度泛化的隐患,进而使得处理后数据的可用性和隐私保护性大幅度下降。为此,本文在实现K-匿名模型的经典算法-Datafly算法的基础上,提出了可以进一步提高处理后数据的精度的基于多属性泛化的K-匿名算法。这一算法在原Datafly算法的基础之上,不仅就泛化属性的选取方式进行了改良而且就泛化属性选取中可能发生的取值最多属性不唯一的情况进行了探讨,大幅度地提高了经K-匿名模型处理后数据的数据精度。本文首先就本文的研究问题和相关的基本理论等进行了简要介绍。接着就实现K-匿名模型的经典算法中的不足进行了列举,并在此基础之上,提出了对上述不足进行了相应的改进了的基于多属性泛化的K-匿名算法。这一新的算法不仅就泛化属性的选取方式进行了改良而且对泛化属性选取中可能发生的取值最多属性不唯一的情况给出了解决方案,极大地提高了处理后数据的数据精度,使得K-匿名模型可以更好地适用于医疗信息的发布环节之中。最后,本文以此算法为基础,设计并实现了基于多属性泛化的K-匿名算法的医疗信息匿名化发布。