基于滑动窗口数据流直方图发布方法研究

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户:abcd494895936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术高速发展,数据流已经越来越广泛的出现在众多的网络应用程序中。数据流具有速度快,到达时间连续,总容量大等一系列特点。因此一般要求数据流处理算法在单遍扫描的限制条件下就可以得到计算结果。在线处理这些数据流,并且能够对相关数据统计信息进行实时发布,这会带来巨大商业应用价值。然而,数据流中包含了大量的个人隐私信息,如果把这些数据直接进行发布的话,会造成用户个人隐私信息的泄露。我们通过以下两个例子说明:(1)在实时交通信息系统分析中,个人所规划的目的地信息遭到暴露;(2)在医疗分析数据集中,患者的患病信息遭到泄露。这些关系个人位置信息以及个人患病信息的数据都是非常重要的信息,因此,如何在众多的应用中,实时的发布数据并实现隐藏用户的隐私数据已成为重要的研究问题。目前虽然存在着众多的针对静态数据集的直方图发布方法,然而这些方法由于需要缓存数据流中滑动窗口的全部数据而无法有效的快速处理数据流。另一方面,虽然现在已经有一些专门针对数据流滑动窗口直方图发布方法,但是现有这些方法用来处理滑动窗口模型时,会产生如下两个问题:(1)没有考虑利用直方图发布问题和滑动窗口近似统计问题之间的相关性;(2)没有考虑数据流近似技术对于数据隐私保护的作用,而仅选择保存当前窗口内所有数据生成的直方图进行简单加噪处理。针对于以上两个问题,本文主要从以下两个方面开展了工作:1:提出了一种基于相关距离数据流差分隐私直方图发布算法HPA-SW(Histogram Publishing Algorithm for Sliding Window Model)。该算法首先利用近似统计的思想来将一个滑动窗口划分成k个子块,并通过调整k的大小来调整数据的近似统计误差;然后,利用相似性度量的方法计算相邻时刻的统计数据相似距离,通过比较相似距离和阈值之间的差异优化隐私预算。通过理论和实验证明,该算法高效处理数据流中的数据而达到用户满意的发布误差。HPA-SW算法从实验上表明比现有最好的算法降低了50%。2:针对在实际应用中存在数据可用性低和隐私泄露问题,提出了优化算法AHPM-SW(Adaptive Histogram Publishing Method for Sliding Window)。AHPM-SW算法首先利用数据流近似计数方法来预测下一时刻滑动窗口内数据的分布信息;再通过比较估计值与真实值的之间的差异来选取合适的发布值;最后对排序后的直方图进行聚类处理并优化其桶内数据的误差。最后通过理论与实验证明AHPM-SW算法具有一定的可用性。标准数据集合上的测试结果显示:AHPM-SW算法比现有最好的基于分组的直方图发布算法,平均发布误差减小了约77%。
其他文献
学位
学位
随着经济的快速发展,钢铁行业作为国民经济的“支柱型”产业,在创造巨大经济效益的同时也产生了大量的污染物。目前钢铁联合企业在位于潮湿南方地区的矿山开采工程中会产生大量的高含湿量粉尘,若采用袋式除尘器处理易发生结露、糊袋的现象,导致除尘器发生故障。微孔膜除尘器由于采用疏水性高的PTFE微孔膜滤料,有效的克服了糊袋等问题,但目前常规的微孔膜除尘器大都采用机械振打方式清灰,其缺点是清灰效率低,使用寿命短;
学位
学位
学位
自然界及日常生产生活中,广泛存在液滴撞击壁面的现象,其中的流体力学、热量传递和运输机理等问题,一直是学术研究的热点。研究表明,液滴自由落体时会发生拉伸和压缩的周期性变化,使液滴在撞击壁面前呈椭球形,在气流、电场和磁场等影响因素下,液滴也会发生变形。液滴持续撞击干壁面后,会形成一层薄液膜附于壁面上,许多工况中的液膜具有一定的流动速度,随后的液滴继续撞击具有流动液膜的润湿壁面,撞击现象明显不同。由于气
抗拔桩是岩土工程中经常运用的增加结构抗拔能力的措施之一。在大量的工程案例中,抗拔桩已经得到了普遍的运用。但是,有关抗拔桩的承载特性及工作机理等方面的研究相对滞后于工程发展需求,亟需一种相对快速、便捷的抗拔桩承载特性评价手段。孔压静力触探(CPTU)测试在土分类与土层划分、获取土体原位固结特性以及渗透特性等方面已经有了成熟的应用。将CPTU测试应用于桩基承载特性预测方面也有了几十年的研究历史,相比于
学位
大数据的发展,使得现代社会存在两种性质的信息,一是存在价值的所谓有效信息,二是似乎毫无价值的或重复的信息。从目前对于数据的获取、清洗、分析和发布的整个过程来看,在各阶段无论是哪种性质的数据都存在诸多隐私泄露问题亟待解决。考虑到两方面存在隐私泄露问题,一是数据本身存在关联性导致隐私可能会被恶意挖掘,二是对负责数据分析工作的第三方的不信任,因此需要对分析、发布过程中的数据隐私进行保护。本文从数据分析和