基于差分隐私模型的频繁项集挖掘研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:xienengxian0615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,数据挖掘技术广泛应用于社交网络、医疗机构和教育系统等行业中。大数据时代每天产生的海量数据使数据挖掘成为一种热门技术。其中频繁模式挖掘作为数据挖掘领域的一个重要研究课题,为关联规则分析、分类及聚类奠定了基础。频繁项集挖掘作为其具体形式之一可以为推荐系统、个性化网站及顾客购物习惯分析等应用提供帮助。然而,频繁项集本身含有敏感数据,直接发布会给个人隐私带来相当大的风险。差分隐私是一种强健的隐私保护模型,由于它本身所具有的优势使其应用到众多领域中。本课题主要研究在差分隐私保护机制下,通过权衡数据隐私性与数据可用性的同时来进行频繁项集挖掘。由此本文提出了一种满足差分隐私保护机制的频繁项集挖掘算法HPU(High Privacy-Utility algorithm),其算法力求保障数据的高可用性与强隐私性。基于这个目标,研究内容分为三个阶段:原始数据集预处理阶段、最大频繁项集挖掘阶段和数据加噪及一致化处理阶段。在原始数据集预处理阶段,先对数据集进行降维,然后采用截断数据记录长度的方法来降低敏感度,进而减少所添加的噪音;在最大频繁项集挖掘阶段,HPU基于树结构来直接寻找最大频繁项集,目的是减少不必要的隐私预算;在数据加噪及一致化处理阶段,采用拉普拉斯机制加入噪声及一致化约束算法来保证加噪后的数据与真实数据尽可能保持相同的分布顺序,以此来提高结果精确度。接着本文用理论分析证明了 HPU算法满足s-差分隐私保护。最后的实验结果表明HPU算法的性能表现总体优于传统的TF算法和PrivBasis算法。
其他文献
面向先进制造业领域对高性能并联机器人的应用需求,本文以一种平面冗余驱动并联机器人为主要研究对象,系统研究其刚体动力学建模、性能分析、刚柔耦合非线性动力学建模以及主
在高性能混凝土中加入低电阻率的纤维材料能使混凝土具有良好的导电性能,这样的导电混凝土可以在融雪化冰、电气接地、阴极保护、结构监测和电磁屏蔽等方面加以应用。电致固
船舶货物运输因其运输量大,运输通用性较高,且费用相对其它运输方式而言比较地而成为一种重要的物流运输方式。在船舶运输过程中涉及货主、船主、港口、货物代理、船舶代理、
随着物联网和通信技术的飞速发展,移动终端设备如智能手机的功能日益强大,人们对其处理大任务的要求也越来越高。云计算由于其高计算能力、低服务成本、高可用性等特性已经应
近年来,现代工业的发展使得大量含染料和重金属离子的废水排入水体之中,由于其成分复杂难以降解且易通过食物链在生物体内富集,给生态环境和人类健康带来了严重威胁,如何更好
能源作为人类社会赖以生存的物质资源,其供应和安全对我国现代化建设全局有决定性作用。我国拥有丰富的水电资源,由于其清洁性和可再生性,近年来,我国的水电建设进入了高速发
焊钉连接件作为目前钢-混组合桥梁中最常用的剪力连接件之一,在桥梁工程中得到了广泛应用。布置于公路钢主梁与混凝土桥面板、铁路钢桥面板与混凝土道砧板之间的焊钉连接件往
斑马鱼(Danio rerio)是一种热带淡水硬骨鱼,具有体型小、易繁殖、生殖周期短、胚胎发育透明等特点。作为国际标准化组织认可的模式动物,目前已被广泛应用于遗传发育、肿瘤生
基于生物特征的身份认证系统吸引了越来越多研究者的关注,生物特征如人脸和指纹在很多门禁系统中被广泛采用。近年来一些研究表明,人类讲话时的嘴唇区域及其运动包含了大量与
目前我国的基础设施建设如火如荼,每年对混凝土的消耗量尤为庞大。水泥和天然砂作为混凝土传统的组分消耗量与日俱增。水泥和天然砂的生产和开采对环境有消极影响。因此,寻找