论文部分内容阅读
大数据研究的兴起,使得数据首次作为一种资源,受到了政府、企业以及学术界等社会实体的高度关注。人们已开始从数据受益,数据中蕴含的重要价值已初见端倪。然而当人们在使用各种数字化服务时,可能有意或无意地泄露个人隐私信息,隐私安全问题尤显突出。在充分发掘数据的巨大价值的过程中,如何保障个人隐私安全,尤其是如何避免数据挖掘带来的隐私泄露,是数据科学目前亟需解决的关键问题。数据挖掘过程中的隐私保护问题逐渐走进了人们的视线,已提出了部分有益的研究成果,然而这些算法未充分考虑数据挖掘过程中隐私保护的个性化需求问题。与一般方法不同,个性化隐私保护更具针对性,满足个性化需求的隐匿技术已成为学界亟需解决的关键问题。然而面向聚类挖掘的个性化隐私保护技术还鲜有研究者涉足,经过个性化保护的隐私数据如何降低聚类挖掘带来的泄露风险还有待学界探索。针对聚类过程中隐私保护的个性化需求问题,本课题研究一种面向聚类挖掘的个性化隐私保护算法。首先,针对隐私的个性化特性,先界定隐私度概念及其编码表示,据此构造由原始数据和隐私度共同描述的隐私数据模型;其次,针对不同隐私数据的敏感性差异表示问题,先定义隐私关系并构建隐私偏序集,据此设计隐私数据的拓扑分类算法求解隐私线序集;第三,针对隐私数据的多个视图,对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类;第四,通过可变k-匿名策略,提出面向多视图聚类的满足个性化需求的隐私保护算法,以对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作;最后,在真实数据集上考察了所提算法的信息损失和效率。本研究提出的方法具有如下特点:其一,充分尊重用户的隐私保护意愿,能体现不同用户对隐私认知以及保护需求的差异性;其二,对不同敏感数据提供强度有别的隐私保护,隐私保护针对性强,信息损失小,数据可用性高。