基于匿名化的医疗数据发布隐私保护算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:wlm7411814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗数据共享帮助个人、医疗研究人员和医疗组织在已发布的数据库上运行数据分析操作,应用最广的应用为电子病历。但是,医疗数据的发布可能会泄露敏感值,危害个人隐私。近十几年来,由于医疗数据的共享,导致了许多涉及侵犯个人数据隐私的事件,给个人的声誉和生活带来了灾难性的后果。对于保护医疗数据的隐私安全,同时不改变数据的完整性,是针对医疗数据匿名化隐私保护算法的核心,是极具挑战性的。本文基于不同的匿名化技术针对医疗数据发布的隐私保护算法开展研究,提出了三种匿名隐私保护数据发布算法,这些算法技术用于保护医疗数据集在数据共享发布时的隐私。通过对安全性、数据效用和执行时间等各个方面衡量,这三种算法都能够达到预期数值。本文的主要工作如下:首先,基于单元泛化的拆分匿名算法与大多数现有技术(由于泛化和扰动而降低已发布数据集的数据效用)相比,该方法只泛化所需的单元,从而减少了信息丢失,并为匿名数据集提供了更好的数据效用。与现有技术相比,该方法具有较高的数据利用率和较小的相对查询误差。其次,基于聚类的置换式匿名化敏感数据发布模型将聚类和置换算法结合运用,对医疗数据有很好的匿名化效果,效果优于单纯的置换算法。利用不同大小的数据集对该算法的可扩展性和可行性进行了评估,并借助k-中心点聚类方法,将匿名化效果发挥极致。采用Kullback Leibler散度、f-测度和执行时间作为评价指标。实验结果表明,该算法具有良好的匿名性和较少的执行时间。因为该算法利用置换函数进行数据交换,因此保证了该算法在发布和共享数据前对个人隐私保护的安全性,同时有较高的数据完整性。最后,基于层级的模糊式匿名化发布算法将层级数据模糊处理后匿名发布,通过对不同的层级数据分析和创新集成,提出了模糊式的解决方案。实验结果表明,将医疗数据转换为层级数据,得到的匿名层次数据中等价类的平均不相似度高于已有的匿名层次数据中等价类的平均不相似度。因此,该算法可以有效地抵抗相似性攻击。此外,该算法还可以减少信息丢失,从而提高匿名层次数据的实用性。
其他文献
随着复杂网络和大数据的蓬勃发展,三角形计数在重要角色识别、垃圾邮件检测、社区发现和生物检测等领域得到了广泛的应用。三角形计数算法主要用于计算相邻列表的交点数来识别图中的三角形,三角形数量在计算网络聚类系数和传递性方面起着重要的作用。传统的三角形计数算法遍历图中的每个顶点或边,找到两个列表的交集,一旦找到一个公共的邻接顶点,就找到一个三角形。随着大数据时代的到来,研究人员所研究的图结构数据数量级随着
泡沫铝以其优良的性能,受到了越来越广泛的关注,是一种具有良好前景的新型材料。如何制备具有高孔隙率和高强度的泡沫铝是当前本领域研究的重要课题之一。使用熔模铸造法可以获得孔隙率高的泡沫铝,但是由于母板材料筋过于细和制备工艺不完善等问题会导致浇注时充型困难以及所制得的泡沫铝筋过细,使得强度不足。本文通过对熔模铸造法制备泡沫铝过程的改善获得了不同筋粗细的泡沫铝。并且使得泡沫铝的强度获得了一定的提升。主要研
电力系统短期负荷预测是保障电网平稳运行中不可缺少的一环,高精度的负荷预测对电网运行意义重大,但在实际应用中,受多方因素影响,负荷预测的误差无法完全消除,从而导致负荷预测的精度难以达到百分之百,因此,如何有效的提高负荷预测的精度,使其达到电网运行的标准,一直是学术界的热点研究之一。在诸多预测模型中,神经网络具有较强的学习能力和泛化能力,因此,被广泛的运用在负荷预测领域中。本文基于神经网络的最新研究成
桑螟是桑树重大害虫之一,每年对我国蚕桑业造成严重损失。混腔室茧蜂是桑螟优势寄生性天敌,其寄生率高,控制效果持久。将其开发为桑园生防因子符合“绿色防控”方向。本研究以混腔室茧蜂—桑螟为寄生体系,探究混腔室茧蜂的逐日生殖力及子代适合度指标,解析混腔室茧蜂毒液蛋白基因种类及表达模式,明确毒液钙网蛋白在寄生过程中的功能,阐明桑螟被混腔室茧蜂寄生后免疫基因表达模式及和激素水平的变化,从而揭示了混腔室茧蜂对桑
化石能源的过度消耗带来的能源短缺和生态环境危机日益严重,利用太阳能产生清洁燃料或降解处理环境污染物的先进光催化技术被认为是解决能源环境危机最有前景的手段之一,而高效光催化材料的开发是其中关键。本文以二氧化钛(TiO2)、硫化镉(CdS)两种典型的半导体光催化材料为例,通过有序介孔结构的调控、骨架尺寸的剪裁、界面异质结的构筑,有效地增加了材料的比表面积、改善了物质传输能力以及光生电子和空穴的传输分离
本文包括绪论、正文和结论三部分。第1章为绪论,说明本文选题意义,对国内外研究现状做了简要的学术史回顾,交代了文章的研究方法和写作思路,并分析了本文的创新与不足。第2、3、4章为正文。其中,第2章主要梳理了卫国战争之前三个五年计划的实施对苏联坦克工业建立和发展的影响,以及彼时苏联坦克工业的发展状况和存在的问题。三个五年计划背景下的苏联坦克工业发展,为卫国战争爆发后的苏联坦克在战场上巨大作用的发挥打下
家蚕二分浓核病毒(Bombyx mori bidensovirus,Bm BDV)是一种重要的病毒,每年给养蚕业生产带来了巨大的经济损失。mi RNAs(micro RNAs)是一类内源性非编码小RNA分子,由18~24个核苷酸组成,具有调节生物体生命活动的作用。本研究采用高通量测序技术对感染Bm BDV 36 h后的3龄幼蚕和对照组样品进行测序,并对测序数据进行生物信息学分析,筛选出24个差异表
随着柔性电子、可穿戴设备、生物医药、组织工程等领域的高速发展,兼具柔性与导电性的柔性电子材料成为未来电子材料发展的一大趋势。导电聚合物基水凝胶因其灵活的构筑策略、可控的机械性能与导电性,有望成为柔性电子等领域的备选材料之一,因此受到研究者们的广泛关注。然而,现有的导电聚合物基水凝胶体系普遍存在机械强度低、功能单一等缺点,限制了其在柔性电子等领域的应用。本论文围绕导电聚合物基水凝胶网络构筑与调控的核
随着大健康产业的到来,国家先后颁布了一系列政策支持大健康产业的发展,健康医疗地产作为大健康产业的一部分正日益受到市场的关注。近年来,许多企业通过拓展性战略方式,开始把目光投向了“医疗+地产”的发展方向,同时地方政府也在积极招商引资,以医疗健康产业的形式打造健康城市。政府的诉求与企业的规划相互吻合,共同发展。首先,运用PEST分析法和波特五力模型对公司外部宏观环境和竞争环境进行分析,得出医疗健康地产
随着互联网的飞速发展,互联网上的数据也在以超凡的速度呈现出爆炸式的增长。尤其文本数据的爆炸式增长带来了严重的“信息过载”问题。互联网数据中海量冗余信息、虚假信息、噪音信息使得查找和浏览有用信息变得愈发困难,人们迫切需要一些自动化的技术帮助处理海量信息,自动从互联网的海量信息中抽取出噪声少,信息量高的信息,现阶段的相关技术有信息抽取,自动摘要等。作为信息抽取领域的基础技术,实体识别与实体链接,能够从