【摘 要】
:
数据挖掘技术旨在从海量数据库中发掘出潜在的重要知识。数据挖掘技术与日俱兴的同时,在挖掘过程中,私人或敏感知识被泄露出来的风险也越来越高。然而商业合作中数据共享是必
论文部分内容阅读
数据挖掘技术旨在从海量数据库中发掘出潜在的重要知识。数据挖掘技术与日俱兴的同时,在挖掘过程中,私人或敏感知识被泄露出来的风险也越来越高。然而商业合作中数据共享是必不可少的一个环节,共享数据很可能泄露相关的敏感知识,最终造成数据所有者的重大的经济损失。因而,我们需要对共享数据进行恰当的处理,使得其能在尽量不影响正常数据挖掘的前提下,避免其中的敏感知识被泄露。本文主要解决频繁模式挖掘中的隐私保护问题,致力于保护数据中敏感的频繁项集,删除原始数据库中部分事务来降低敏感项集的频繁度,从而在数据挖掘的角度下达到隐藏它们的目的。遗憾的是隐藏敏感项集技术伴随着副作用的产生,已证为NP-hard问题,过去的一些方法主要的缺点在于仅仅考虑单一目标,只能求得局部最优解。此外,已有的基于演化计算算法的敏感项集隐藏方法严重依赖适应性函数中各个副作用的预设权重,预设权重的大小将严重影响实验结果。针对以上问题,本文主要采用基于多目标优化算法框架来解决问题。本文的主要研究内容和贡献如下:从全局优化角度出发,为了减少敏感项集隐藏算法清洗数据库所带来的副作用,本文提出pNSGA2DT算法来将敏感项集隐藏问题转化为多目标优化问题,并采用带精英策略的非支配排序的遗传算法(NSGAII)来求得敏感项集隐藏算法的最优解集。对比现有算法,此算法产生的最优解集对应于副作用内的不同折衷,这可以为用户提供按照偏好或经验自由选择符合自己需求的最优解的机会。此外,算法采用Pre-large概念和改进快速非支配解排序算法等策略,来提高算法运行效率。实验结果表明pNSGA2DT可以得到相关的Pareto最优解集,能为用户提供多个最优解选择。实验结果还表明,提出的优化策略能大幅提高算法运行效率。pNSGA2DT算法在运行过程中,需要大量的交叉变异选择操作,不仅需要花费大量时间,解集的分布性还有不小的提高空间。本文提出基于多目标粒子群优化算法(MOPSO)框架的敏感项集隐藏算法(MOPSO2DT),不仅能节省大量时间,还在解集的分布性有一定的提升。此外,本文还提出基于聚类算法的改进策略。实验结果表明,MOPSO2DT算法在解集的分布性和算法运行效率方面,相较提出的pNSGA2DT算法有着一定的提高。为了进一步提高算法的运行效率和解集的分布性,本文提出基于Pareto蚁群优化算法(PACO)框架的敏感项集隐藏算法(PACO2DT)。此算法不仅继承了蚁群算法(ACO)运行效率快的优点,还采用有效的外存池更新策略来提高解集的分布性。此外,我们还提出新颖的非支配解判别算法来提高算法运行效率。实验结果表明,PACO2DT算法在解集的分布性和算法的运行效率方面,相较之前提出的多目标优化算法有着显著提升。本文针对现有敏感项集隐藏算法存在的问题,创造性的采用多目标优化算法来解决问题,并提供全局最优解集给用户选择。此外,本文设计了大量实验来验证算法的优势,证明提出的算法在解集分布性和运行效率等方面均有不俗的提高。
其他文献
自然语言处理中的许多任务都可以转化为计算两个文本之间的距离,比如信息检索和问答系统等。从认知语言学的角度来看,语言的学习是分阶段的,而不同阶段的学习内容之间存在难
云南被誉为“有色金属王国”。然而,开采和冶炼过程导致的土壤重金属污染也是一个亟需解决的环境问题。利用“适地”性强的矿区植物在矿区废弃地进行复垦,形成的地被物在有效阻控重金属污染物扩散的同时,还可以利用植物和根际微生物的联合作用对大面积矿区废弃地土壤进行植物修复,是一种经济而又有效的治理措施。基于此,我们以云南个旧黄茅山大型尾矿库内两种优势的木本植物形成的三个群落:即滇杨单优群落、马桑单优群落以及二
延安,中国革命的圣地,见证了共产党人为初心使命奋斗而创造的伟大奇迹,积淀了共产党人在生死关头奋起而构筑的精神底蕴.在建党百年之际、全党开展党史学习教育之时,重温延安
我国的医疗体制改革正在逐年深化,现阶段大力推进健康中国战略,实现公立医院的现代化管理就是其中一大重点任务。各大公立医院正在逐渐优化资源配置,探索创新性医疗服务模式,
经验模态分解(Empirical Mode Decomposition,简称EMD)算法是一种处理非线性非平稳信号的时频分析方法。该方法可以自适应地将输入信号分解成若干层本征模函数(Intrinsic Mode Function,简称IMF)和一个余项函数,通过对IMF的特定操作可以实现信号的滤波和去噪等功能。经典的EMD算法主要针对标量形式的函数信号,处理几何模型时需要首先定义几何模型上的信号函
穿越电影打破了传统电影中对于“时空”的限制,对电影时空进行重新解构,从而形成独特的时空类型。此类电影中的“时间”变的更加自由,故事情节也不再按照线性顺序的时间逻辑发展。所以,作为电影叙事的关键设置点,“时空”在穿越电影中起到了举足轻重的作用,并对电影叙事产生了极大的影响。本文将根据穿越电影中“时空”呈现方式的不同,将其分为线性时空、平行时空和循环时空三种类型。同时,由于每种时空类型对电影叙事会产生
自然中的能源在不停减少,而工业发展对能源的需求则不停增进的,这无疑要求人们去探索可循环重复利用且对在使用过程对环境不会产生危害的绿色能源。氢能具有可循环使用的优点,通过水电解的方法制备氢气是一种安全可行的方法,但这个方法制备氢气过程中存在一个致命的缺点,这个缺点是:电解水过程中的阴极上的析氢过电位太高,导致电解水所需消耗的电量巨大。为了克服这一缺点,很多工作都致力于开发性价比高的阴极电极材料,Ni
数据挖掘的一个基础研究方向就是频繁项集挖掘。频繁项集挖掘指从交易数据库中挖掘出频繁出现的项集,从而为下一步关联规则挖掘或序列挖掘提供支持。传统的频繁项集的挖掘的
《巴塞尔协议III》是资本质量的新标准。为此,我国银监会2012年6月发布《商业银行资本管理办法(试行)》,财政部2017年5月发布《企业会计准则第37号——金融工具列报》,缩小了我国与国际资本监管标准的差距。流动性和风险性使资本市场能够快速对金融工具价值变动做出反映,而风险建模有助于建立准确的资产定价模型,及时反映资产价值变动。研究风险建模对金融工具公允价值变动的市场感知的影响,对于完善风险度量
磁性材料在当代科技发展中起着举足轻重的作用,人们为了探索磁性材料在有限温度下的各种特征性质,提出了多种理论和方法。数值方法中的蒙特卡洛方法因为其自身的优点,在这一领域得到广泛有效的应用。本文正是采用蒙特卡洛方法中的Metropolis算法进行三维Ising模型、三维Heisenberg模型和磁性材料CrO_2的模拟计算,主要内容如下:第一章,介绍磁性科学的发展历程和磁性系统中常见的自旋相互作用。第