【摘 要】
:
数据挖掘研究的是如何获取海量数据中隐含的信息,这些信息不能通过常规的数据库查询、统计技术获得,由于它发现的是数据中隐含的模式和规律,如运用不当,将会泄露数据拥有者不
论文部分内容阅读
数据挖掘研究的是如何获取海量数据中隐含的信息,这些信息不能通过常规的数据库查询、统计技术获得,由于它发现的是数据中隐含的模式和规律,如运用不当,将会泄露数据拥有者不愿公开的隐私信息。伴随着数据共享,隐私保护和数据挖掘等多重需求的增长,隐私保护数据挖掘(PPDM)的研究应运而生,并且迅速成为数据挖掘领域研究的热点之一。本文首先从隐私保护技术角度对当前较为常见的隐私保护数据挖掘方法进行简单的分析和介绍;然后着重介绍本文研究的重点——关联规则隐藏;最后针对当前关联规则保护数据挖掘研究所存在的问题,提出一种新的关联规则隐藏算法HarRFI。为保护交易数据集中的敏感规则,关联规则隐藏算法通常采用数据清洗方法对交易数据集进行处理。常用的数据清洗方法有:按照不可倒推的方法修改数据为一个新值,称为数据扰乱;用一个未知符号‘?’来代替已存在的值,称为数据阻塞;合并或抽象详细数据为更高层次的数据,以及交换和抽样技术等五种方法;数据扰乱是经常采用的数据清洗方法,但现有基于数据扰乱技术的关联规则隐藏算法,有些只考虑隐藏敏感规则,有些只能在整体上考虑如何降低删除项对非敏感规则的影响。HarRFI算法第一次在隐藏敏感规则之前,明确了哪些非敏感规则在隐藏过程中会受到影响,并且第一次从非敏感规则角度考虑如何隐藏敏感规则。它优先删除敏感交易记录中满足如下条件的项(即牺牲项):1、包含在敏感规则中;2、不包含在非敏感规则中。因为包含同一敏感规则的敏感交易中含有的非敏感规则不可能完全相同,这样使得在包含相同敏感规则的交易记录中可选定不同的牺牲项,确保删除牺牲项对非敏感规则影响最小。实验证明,在交易数据集上,相对于同类算法,如:Na?ve,MinFIA,MaxFIA和IGA,本文提出的HarRFI算法在成功隐藏敏感规则并不引入伪规则的基础上,对原数据集中的非敏感规则的影响最小。
其他文献
传统的分类问题通过对大量有标记的训练样本进行学习,从而建立用于预测无类别标签的样本的模型。但在许多实际的分类问题中,如图像分析、网页分类、疾病检测、信用评级等,所得到
XML已经成为W3C制订的Web上的数据表示和数据交换的标准,需要通过Web交换和处理的XML数据在大幅度的增加,这就对XML的数据模式提出了更高的要求。设计一个好的Schema的中心目
在无线通信技术与计算机网络迅猛发展的背景下,移动Ad hoc网络以其移动自组、多跳通信等特性引起了人们的广泛关注。移动Ad hoc网络(Mobile Ad hoc Network,MANET)是由一系列
随着后PC时代的到来,嵌入式技术以其灵活、高效、高性价比的优点被广泛应用在国防、消费电子、信息家电、网络通信等方面。嵌入式操作系统作为嵌入式系统的灵魂,提高了嵌入式系
XML技术的迅速发展使得它的应用范围和重要性已经超出了其本来的制订预期,在数据表达和数据交换的应用发展上起着重要的作用。时态数据库的发展和Internet的广泛应用,使得时态
当今世界科技发展日新月异,综合国力竞争日益激烈,这些都要求我们大力发展科学技术,提高自主创新能力。立足于国内外发展现状,我国在科研管理过程中,运用不同评价指标进行量化的办法虽然在一定程度上提高了科研人员的研究热情,但是各个评价指标往往限于孤立,对于个体科研人员的科研能力缺少综合评价,而且存在评价结果不够客观、准确性差等问题。针对科研人员项目申报的能力与个人承担项目、成果、收录转载文摘、奖项之间存在
随着P2P技术在社会生活中的广泛应用和人们对匿名应用需求的日益增长,人们迫切希望某类P2P系统能提供很好的匿名性。传统的匿名通信应用受其系统架构的影响,往往采用代理服务器
目前无线局域网WLAN已经得到了十分广泛的应用,各种便携式移动终端也日益普及,使用户对移动性的需求不断增强。由于WLAN中AP(Access Point)功率有限导致其服务范围较小,用户
随着无线通讯技术、微电子技术及嵌入式计算技术的快速发展,无线传感器网络的应用范围越来越广泛。但是,由于无线传感器网络自身的固有特点使得传感器节点感知的数据往往存在大
XML采用树形模型来表示数据,XML文档上的查询通常被表示成小枝模式。与此同时,XML文档上关键字的检索也因其直观、友好的查询接口而被广泛研究。为了更好地整合数据管理领域