论文部分内容阅读
随着互联网技术的快速发展,数据挖掘广泛应用于金融、医疗保健、零售业等多个领域。一方面通过对海量数据进行分析,并提炼出隐藏在其中的有效信息和知识资源,能够更好的对其进行有效的利用。另一方面隐私已经成为大数据领域急需解决的问题,一旦恶意用户获取到其他用户不愿让别人知道的隐私信息,就可以利用这些信息进行一定的恶意操作,从而给其他用户带来经济损失或者其他方面的麻烦。因此,如何能够在实现高效利用数据的同时保护用户的隐私信息,已经成为大数据领域的热门研究方向。在大数据环境下,隐私保护技术面临着以下一些挑战:(1)一些传统的隐私保护技术无法很好的应对大数据环境中数据不断变化的特点,并且数据生产者没有自动参与隐私保护过程。(2)大数据的多样性使得多源数据融合过程中用户的隐私泄露风险增加。特别当大数据分布广泛,多个数据集中数据可能存在一定的相关性,使得多数据融合后隐私泄露风险大于单个数据集中的隐私泄露风险。针对于以上大数据环境中存在的问题,本文对大数据环境下动态数据的隐私保护方法展开研究。主要工作如下:(1)针对于用户位置服务的过程中存在的隐私泄露的问题,提出一种基于查询分片的用户协作的位置隐私保护方法。通过使用锚点信息来替代用户的真实位置信息发起查询,同时对查询请求过程中的内容进行分片处理后由其他用户发送给服务器。位置服务器收集到全部请求后进行重组并根据用户锚点信息采用增量近邻算法得到的查询结果返回给用户。这一过程降低了用户在不断变化的位置服务过程中隐私信息泄露的风险。(2)针对于在大数据环境下多数据融合关联分析过程中用户隐私信息泄露风险增加的问题,对挖掘后的关联规则进行本体构建,同时通过基于语义的本体映射来发现多个本体之间的相关性。结合输出映射表对多个本体进行集成,并对全局本体中隐含的关联规则进行具体分析,同时采用信息增量法计算属性之间的相关度,作为发现隐含关系的基础。通过采用基于模糊的关联规则隐藏算法对发现的隐含关系进行隐私保护,使用泛化的形式修改数据库中的事务来隐藏敏感关联规则。实验结果表明该方法在隐藏敏感关联规则的前提下,具有较低的执行时间与副作用。