论文部分内容阅读
随着云计算、物联网、移动互联网等技术的迅猛发展,各个行业开放生态、互联互通、跨界融合,催生了大数据时代的到来。大数据往往是来自社会各界数据的有机融合,不同部门可以广泛地获取并利用这些大数据来辅助自身业务的发展。海量信息的集成、存储和分析利用往往非常复杂且代价昂贵,云计算开创了一种新型的数据外包服务模式,即数据即服务(Data as a Service,简称DaaS),通过数据管理集中化为用户的数据分析与利用提供基础性技术支撑。然而,其数据拥有权与存储权相分离、多源高维、动态性强等特点,加剧了数据共享过程中隐私泄露的风险,对隐私保护技术提出新的挑战。在此背景下,本文在分析数据发布、存储、搜索等阶段存在的隐私泄露风险的基础上,结合不同阶段对数据隐私保护粒度、数据可用性、时效性等不同维度的多方需求,重点开展了数据外包服务模式下的数据隐私保护关键技术研究。首先,针对现有隐私保护机制难以适用于云环境中高维稀疏数据安全发布的问题,通过观察大数据自身的特征及新型发布模式,分析由数据关联分析所造成隐私泄露的潜在风险,研究与其特征相匹配的隐私保护准则,了解用户对数据隐私保护及数据可用性的需求,以混合云为数据承载平台,提出一种基于k~m-匿名准则的数据分割技术,设计了一整套数据匿名分割方案,解决集值数据发布时数据隐私保护和可用性的均衡化问题。其次,针对云环境下多方数据融合所面临的隐私泄露问题,与先前仅有数据拥有者和授权用户的二元数据发布场景相比,分析Daa S服务模式所引入的新型数据安全风险,研究数据在融合过程中的隐私保护策略以及外包至云端数据的一致性及完整性的验证方法,从攻击者的动机及危害程度入手,提出了多轮加细的多源协同匿名策略,防止了在多方进行数据融合时,非己方无法学习到比最终融合数据更多的知识;进而,通过定义半可信信誉等级和完全非可信信誉等级,设计了一套二阶串联式的数据隐私及安全保护机制。然后,针对大数据检索过程中多层次细粒度的隐私保护需求,从用户的搜索权限与搜索结果视图的精确性出发,提出一种基于概念格粒度化推演的增量型数据索引策略,在云平台上构建了一个完整的支持差异化的数据检索服务系统架构,该架构与当前Map Reduce模型及现有的访问控制研究方案相兼容,且同时支持相似性搜索和模糊搜索等实用的搜索模式,解决了由传输冗余数据造成的数据隐私泄露问题(如洋葱攻击和蕴含攻击),同时降低了数据搜索开销和数据传输的通信开销。最后,针对大数据多方多元搜索所面临的隐私泄露问题,提出集“精度、时效、隐私保护粒度”三位一体的近似搜索机制。以数据抽样技术为蓝本,引入(ε,δ)-近似度量准则作为桥梁,计算并证明了搜索精度指标、时效指标T和两类主流的隐私保护指标(k-匿名和B-差分隐私)之间的量化转化关系。接着,分别针对同构搜索及大数据增量追加两类场景提出历史搜索结果的复用机制,并严格证明了结果可复用的边界;最后,为了进一步提高系统的搜索效率,采用自举法对大数据搜索做进一步的加速,并探讨了使用自举法加速搜索的适用条件。