论文部分内容阅读
随着信息化技术的快速发展和广泛应用,政府、企业、医疗机构等生产和积累了大量和人民生活息息相关的数据。这些数据的开放共享为充分释放海量数据中的价值提供了可能,可带来巨大的社会与经济效益。目前,各国政府和国际组织都纷纷开展了数据开放共享的实践工作。然而,数据开放不可避免的会带来一些信息泄露的安全隐患,如医疗数据中医生用药习惯、手术成功率、检查结果一致性等敏感信息。如何在数据开放的过程中确保敏感信息不泄露成为数据开放共享过程中迫切需要解决的问题。
目前开放数据的使用方式,主要分为两种。第一种是允许用户下载数据进行开发和分析使用。然而,上述方式往往需要去除原始数据中的敏感信息、可能会导致敏感信息泄露的字段,导致信息的不完整,极大的影响了开放数据的可用性。因此,目前大都采用第二种数据开放方式,即仅允许数据使用者使用数据。数据使用方可以提交访问请求,数据提供方对数据访问过程和访问结果进行审核,审核通过后将结果返回给用户。然而,同一结果数据由于其操作流程的不同,语义也可不同。因此,审核操作结果需要对操作流程进行理解,是十分复杂的过程。本文对如何解决数据开放共享带来的信息泄露的问题进行了研究和实现。论文首先对数据开放现状及国内外现有数据加密、隐私保护相关技术进行了详细调研,并对其存在的问题进行了深入分析和研究,在此基础上提出基于数据追溯信息的过程审核与结果审核机制,本文主要工作如下:
1) 设计MongoDB的数据追溯机制。考虑目前对于汇集的多源异构数据,大都采用NoSQL数据库。本文将目前流行的NoSQL数据库MongoDB 作为突破点,设计了针对 MongoDB 的数据追溯机制。首先对原始MongoDB数据访问操作实现方法进行修改与扩展,在其实现过程中引入溯源标记,设计溯源追踪算法,可对描述复杂查询意图的多条查询语句进行溯源信息的传递,可获得描述结果数据起源的Why-provenance 以及描述结果数据查询分析过程的 How-provenance追溯信息。同时,在溯源信息的存储机制上,对现有How-provenance追溯存储的半环结构进行扩展,提出适用于MongoDB查询过程审核的How-provenance存储结构。
2) 提出开放数据集中的安全规则描述机制、推理机制。本文首先建立和隐私信息有关的原子知识库,使用Datalog制定安全策略,进而使用Datalog的知识推理功能,丰富安全规则,对于用户提交的数据使用请求,利用存储的 How-provenance 信息设计并实现了相应的过程审核算法和安全规则做匹配进行自动审核,对于违反安全需求的访问请求予以驳回。针对存储的 Why-provenance 信息,设计了原始数据异常使用分析等应用。通过上述机制的自动实现,在数据开放过程中,减少隐私信息的泄露风险。
3) 面向实际医疗数据开放应用,实现了数据开放安全审核原型系统。本文详细描述了该系统的主要模块和系统实现,介绍了实验效果,验证了本文所提方法的可行性和有效性。
目前开放数据的使用方式,主要分为两种。第一种是允许用户下载数据进行开发和分析使用。然而,上述方式往往需要去除原始数据中的敏感信息、可能会导致敏感信息泄露的字段,导致信息的不完整,极大的影响了开放数据的可用性。因此,目前大都采用第二种数据开放方式,即仅允许数据使用者使用数据。数据使用方可以提交访问请求,数据提供方对数据访问过程和访问结果进行审核,审核通过后将结果返回给用户。然而,同一结果数据由于其操作流程的不同,语义也可不同。因此,审核操作结果需要对操作流程进行理解,是十分复杂的过程。本文对如何解决数据开放共享带来的信息泄露的问题进行了研究和实现。论文首先对数据开放现状及国内外现有数据加密、隐私保护相关技术进行了详细调研,并对其存在的问题进行了深入分析和研究,在此基础上提出基于数据追溯信息的过程审核与结果审核机制,本文主要工作如下:
1) 设计MongoDB的数据追溯机制。考虑目前对于汇集的多源异构数据,大都采用NoSQL数据库。本文将目前流行的NoSQL数据库MongoDB 作为突破点,设计了针对 MongoDB 的数据追溯机制。首先对原始MongoDB数据访问操作实现方法进行修改与扩展,在其实现过程中引入溯源标记,设计溯源追踪算法,可对描述复杂查询意图的多条查询语句进行溯源信息的传递,可获得描述结果数据起源的Why-provenance 以及描述结果数据查询分析过程的 How-provenance追溯信息。同时,在溯源信息的存储机制上,对现有How-provenance追溯存储的半环结构进行扩展,提出适用于MongoDB查询过程审核的How-provenance存储结构。
2) 提出开放数据集中的安全规则描述机制、推理机制。本文首先建立和隐私信息有关的原子知识库,使用Datalog制定安全策略,进而使用Datalog的知识推理功能,丰富安全规则,对于用户提交的数据使用请求,利用存储的 How-provenance 信息设计并实现了相应的过程审核算法和安全规则做匹配进行自动审核,对于违反安全需求的访问请求予以驳回。针对存储的 Why-provenance 信息,设计了原始数据异常使用分析等应用。通过上述机制的自动实现,在数据开放过程中,减少隐私信息的泄露风险。
3) 面向实际医疗数据开放应用,实现了数据开放安全审核原型系统。本文详细描述了该系统的主要模块和系统实现,介绍了实验效果,验证了本文所提方法的可行性和有效性。