面向聚类挖掘的个性化隐私保护方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:cangyueshang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据研究的兴起,使得数据首次作为一种资源,受到了政府、企业以及学术界等社会实体的高度关注。人们已开始从数据受益,数据中蕴含的重要价值已初见端倪。然而当人们在使用各种数字化服务时,可能有意或无意地泄露个人隐私信息,隐私安全问题尤显突出。在充分发掘数据的巨大价值的过程中,如何保障个人隐私安全,尤其是如何避免数据挖掘带来的隐私泄露,是数据科学目前亟需解决的关键问题。数据挖掘过程中的隐私保护问题逐渐走进了人们的视线,已提出了部分有益的研究成果,然而这些算法未充分考虑数据挖掘过程中隐私保护的个性化需求问题。与一般方法不同,个性化隐私保护更具针对性,满足个性化需求的隐匿技术已成为学界亟需解决的关键问题。然而面向聚类挖掘的个性化隐私保护技术还鲜有研究者涉足,经过个性化保护的隐私数据如何降低聚类挖掘带来的泄露风险还有待学界探索。针对聚类过程中隐私保护的个性化需求问题,本课题研究一种面向聚类挖掘的个性化隐私保护算法。首先,针对隐私的个性化特性,先界定隐私度概念及其编码表示,据此构造由原始数据和隐私度共同描述的隐私数据模型;其次,针对不同隐私数据的敏感性差异表示问题,先定义隐私关系并构建隐私偏序集,据此设计隐私数据的拓扑分类算法求解隐私线序集;第三,针对隐私数据的多个视图,对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类;第四,通过可变k-匿名策略,提出面向多视图聚类的满足个性化需求的隐私保护算法,以对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作;最后,在真实数据集上考察了所提算法的信息损失和效率。本研究提出的方法具有如下特点:其一,充分尊重用户的隐私保护意愿,能体现不同用户对隐私认知以及保护需求的差异性;其二,对不同敏感数据提供强度有别的隐私保护,隐私保护针对性强,信息损失小,数据可用性高。
其他文献
在测控领域中,测试对象复杂、测试参数众多,对测试速度、测试精度要求较高;传统的单机单参数手工测试已不适应生产力的发展,要求能够对被测对象进行自动化测试与控制。为满足
近年来,随着无线局域网研究的深入和移动通信技术的发展,正交频分复用技术凭借其频谱利用率高、系统复杂度低、带宽扩展性强等特点,在4G组网、WLAN中广为使用。随着智能手机
在几十年以前,就已经有人提出了逐次逼近型的模数转换器结构(即SAR ADC),但是近些年人们对它的关注度越来越高。这是因为同其他ADC相比,SAR ADC的芯片面积小,结构简单,模拟模块
通信信号调制分析技术是非合作通信领域的关键技术,在电子侦察、通信对抗、频谱监测等方面有着重要的应用价值。经典的通信信号调制分析研究大多假设环境噪声服从高斯分布,但
轨迹数据对于智慧城市和“互联网+”建设有着重要作用,然而轨迹中包含了大量的个人隐私,对轨迹数据集的发布进行隐私保护刻不容缓。差分隐私作为一种定义规范、理论基础坚实
随着科技的进步,当今社会的信息量正在以爆炸的趋势增长,因此需要对这些大量的数据进行挖掘,为社会生活乃至国家发展找出有价值和有意义的相关知识。于是,产生了数据挖掘这一
随着人们对计算机自动化和智能化的渴望,人工智能的发展和研究应运而生。自然语言处理作为人工智能的重要研究方向之一,在对语言处理的高效性和准确性方面有很大的发展和提高
随着集成电路技术的发展,为实现万物互联,网络中需要连接更多实现特定功能的设备。NoC是一种可以实现单颗芯片上超大规模系统集成的新兴通信模式,但NoC内核数量的不断增加,2D
近地层风场的预报是风能资源利用的重要关注点。背景场资料是区域模式的初边值来源,而模式近地层的湍流过程需要边界层参数化方案来描述。因此,两者对近地层风场的预报有着重
有关社区发现的理论研究一贯在社会网络的课题中占有非常的重要地位。而近几年计算机网络技术的发展,使得社会网络的规模由现实生活中人与人之间的关系,逐步扩展到了在线虚拟