基于动态分类树构造的集值型数据差分隐私保护方法

来源 :计算机应用研究 | 被引量 : 8次 | 上传用户:wdlwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于分类树划分的差分隐私方法能有效地对集值型数据的发布进行保护,但在构造分类树时该方法没有充分利用集值型数据集自身的特征。通过对添加噪声量的影响因素分析,提出了一种基于数据集特征的集值型数据发布方法,该方法首先对数据集进行分析,然后根据数据集中记录的种类数占总输出域的比例以及只出现一次的记录种类数占总输出域比例,动态构造分类树。实验结果表明:当数据集满足IOR≤40%且SIOR=(5%,20%]时,通过有效利用集值型数据集的特征,构造较优的分类树,可以添加少于10%的噪声。
其他文献
为了克服现有的试题管理系统在试卷生成环节的速度和质量上存在的缺陷,将粗粒度并行遗传算法与自适应技术相结合,提出了一种自适应调整种群迁移的快速并行遗传算法。分别从试题库的编码方案、遗传策略、适应度函数的优化、交叉变异算子的选择和自适应度值函数的选取等方面进行设计,取得了很好的适应度,同时采用并行的策略,提高了算法的运行速度。仿真实验结果表明,该算法能够成功应用于自动组卷,并且组卷效率和成功率都得到了
为提高人工蜂群算法的寻优效率,对算法中跟随蜂和侦察蜂的搜索策略进行了改进,提出了一种反映个体拥挤程度的crowd指标,并基于该指标为跟随蜂设计了针对优秀个体的自适应邻域搜索策略;针对侦察蜂的搜索行为,设计了一种较差个体重置机制,以保持种群多样性,防止算法可能出现的早熟收敛。通过八个典型测试函数的仿真结果表明,相比原算法以及实验中列出的同类算法,改进算法在收敛速度和寻优精度上取得了较好的效果,说明了
针对基于隐私保护的云数据共享系统中用户需要持有大量密钥、密钥管理困难的问题,提出了一种轻量级的云数据共享方案。在介绍基于公有云的数据共享系统架构的基础上,描述了基于广播加密、可搜索加密等密码学技术构建的数据共享方案,并讨论了数据共享系统的工作流程。与传统的云数据共享系统相比,所提出的方案无须可信的私有云,可以降低客户的投资,而且用户无须随身携带所有密钥,增加了系统的灵活性。
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记
针对在低信噪比、观测点数较少情况下稀疏度的欠估计问题,提出了一种基于贝叶斯预测密度的弱匹配追踪频谱检测算法。该算法利用贝叶斯预测密度理论推导出罚函数,然后引入弱匹配策略于Co Sa MP算法,提高频谱支撑集估计性能,且减弱受稀疏度估计准确度的影响。仿真结果表明,当信噪比高于3 d B时,利用400个观测样本该算法就能获得90%以上的频谱检测概率,宽带频谱感知性能优于已有算法。
针对现有采样算法存在可扩展性和公平性差的问题,提出一种基于流数约减的非线性公平采样算法(adaptive fair sampling based on reducing flow numbers,AFS-RFN)。AFS-RFN算法首先采用均匀抽样的方法对要统计流数进行约减,获得样本流集合;然后,对属于样本流集合的分组采用非线性的方法进行公平采样,实现控制统计流数目的同时保证统计流信息的准确性。仿
为了解决现有网络编码的机密性保障机制不能抵御全局的窃听攻击,并且需要牺牲一定的带宽以实现香农安全的问题,提出了一种机密性保障机制C-Coding以抵御针对网络编码的全局窃听攻击。对随机线性编码的机密性进行了定量分析并运用于C-Coding。理论分析和攻击实验表明该机制可在全局窃听假设下为基于网络编码的传输提供较高的机密性保障。实验结果显示在密钥长度不小于13时,受遗传算法攻击时成功概率几乎为0。使
研究基于收包评价的无线传感器网络的部署,旨在用尽可能少的节点完成监测任务。提出了收包评价模型,用统计的方法研究无线传感器网络全网的数据收包情况,将收包视为正,丢包视为负,分析得出部署节点的具体数目,在满足部署需求或监测精度要求的前提下,使全网数据收包最大化。实验表明所提出的方法可以最大化网络的数据包接收。由于无线传感器网络中的丢包往往难以避免,收包评价适用于允许一定丢包率的实际部署,因而提出的方法
为了节省故障定位所需的网络能耗,给出了基于被动端到端的启发式贪婪故障链路推断算法。该算法基于被动端到端的数据建立故障链路推理模型,推断网络中最可能故障的链路集。使用端到端的数据计算各条路径的丢包率,通过与阈值的比较对路由矩阵进行简化,目的是去掉根据端到端的数据可以判定为好的路径。由于该推理模型需要各条链路的故障概率,通过简化矩阵的方式优化算法LIPM(loss inference based on
针对滚动轴承故障检测过程中训练样本收集难的问题,研究了视觉词袋模型和p LSA算法,提出了一种基于概率潜在语义模型的滚动轴承故障检测新方法。为了减少计算复杂度,降低特征的维数,在利用小波包变换提取滚动轴承故障特征后,引入视觉词袋模型将故障特征表示为视觉词袋特征的直方图;为了减少训练样本收集的难度,解决小样本问题,进而运用p LSA模型对滚动轴承故障进行检测。实验结果表明,该方法缩短了训练时间,提高