基于抽样的隐私保护聚类挖掘算法研究

来源 :河北工业大学 | 被引量 : 3次 | 上传用户:userpanphilip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分析与处理技术迅速发展,在公布或共享数据以挖掘有效决策信息和知识的同时,不免暴露出个人和公司隐私泄露问题,进而催生了隐私保护数据挖掘这一研究领域并在近三年成为国内外研究者关注的焦点。数据挖掘中的聚类挖掘是分析管理问题的重要方法之一,常应用于市场细分、客户分类与制造系统单元化设计等重要领域,而要得到这些结果则需要涉及大量详细具体的敏感性数据和信息,与此同时数据中潜在的模式和规律也很有可能对隐私和信息安全构成威胁。因此随着客户个性化需求时代的急速发展,聚类隐私保护算法也成为亟待解决的关键隐私保护数据挖掘问题。目前关于隐私保护聚类挖掘算法才刚刚起步,采用的隐私保护算法也相对简单,且现有的隐私保护聚类算法在效率效果上均存在着难以调和的矛盾。基于这种现状,本文提出了抽样隐私保护聚类算法,在保证数据隐私性和聚类结果准确性的同时,还可以处理大规模数据。论文主要贡献在于依据基于密度和基于模型聚类算法可构建聚类分布函数的原理,构造了均匀抽样、一元正态和多元正态抽样等三种聚类分布函数。并指出加和模糊系统与高斯混合函数的等价性,确立了基于模糊C均值聚类统计结果的分布函数参数的最优估计,进而应用随机抽样技术,产生了既具原始数据聚类特征又能保护隐私的新数据,并给出了算法流程的详细描述。最后通过仿真实验,验证了本文算法的有效性,并给出了各种隐私保护聚类方法的优势和适用条件。
其他文献
期刊
期刊
1983年3月8日下午6时10分——广东新闻界将永远记着这个不平常的时刻! 此时,在广州市长堤大马路的华光小食店门口,一名无畏的新闻记者为保护同志,挺身而出,赤手空拳地正同3
期刊
常听人们议论:“中央的政策好是好,可就怕下面走样。”近来翻阅地方报纸,不时看到报道中有“走样”的现象。不久前,一家省报在头版头条刊登消息说“采取五优先措施,确保我省
工程项目通常具有一次性、长期性和高度复杂性等特点,这使得工程项目争端的数量和频率都处于较高水平。因此,有效处理这些工程争端无论是对于项目建设的效率提升,还是对其质
期刊
期刊
期刊
在新的一年里,新闻战线的重大任务,是要开创新闻工作的新局面。其中,很重要的一环,就是改进新闻。新闻,能够最大量、最迅速地反映实际,是报纸、广播和电视的主体,也是读者每