针对k-匿名数据的OLAP技术研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:initial1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及,用户可以方便快捷的访问到大量的共享数据。这些共享数据中包含个人隐私信息,为了防止隐私泄漏,数据发布者往往在数据发布之前进行匿名和k-匿名处理。k-匿名数据是特殊的不确定数据,泛化值的所有可能取值的概率相等,k-匿名数据元组的可能世界概率也相等。满足k-匿名的数据通过准标识符进行外表连接确定个体的概率至少为1/k。k-匿名是一种有效的隐私保护方法。k-匿名数据的高度不确定性导致了k-匿名数据的可用性很低,如何从这些k-匿名数据中得到有用的知识是亟待解决的问题。OLAP是知识发现的主要手段。现有的不确定数据OLAP研究是在元组可能世界概率不等的基础上提出的,而且传统的不确定数据的不确定性较k-匿名数据要低,可能世界小很多。传统不确定数据的不确定性大多是不可控制的,如无线传感器网络等获得的数据本身有一定的不确定性,并且不确定取值的所有可能取值为准确值的概率分布也不能唯一确定,因此传统不确定数据上的查询结果的准确性是不可控制的。当传统不确定数据包含大量不确定数据时,查询结果的准确性不能从根本上得到保证,也不能提供查询结果准确性的量化标准。因此传统的不确定数据OLAP方法并不适用于k-匿名这种特殊的不确定数据。为了解决该问题,对k-匿名数据OLAP进行研究,从k-匿名数据中挖掘有用的知识,让用户可以从弃之不用的“垃圾”中找到“金子”。聚集查询是OLAP的基础,高效的聚集查询是提高k-匿名数据OLAP效率的关键。为了增强k-匿名数据上聚集查询时间效率,给出相对于查询的独立属性集的概念。利用独立属性集,避免遍历元组的可能世界。根据属性区域与属性查询区域的关系,给出WITH子句约束的定义,增强了用户的查询能力。然后给出了k-匿名数据聚集查询的性质。分组聚集查询是OLAP基本操作的基础。利用k-匿名数据自定义层次维度的层次编码,分别给出了基于事实表和CUBE的分组聚集查询算法。然后给出了两种维度层次树的编码方法。利用维度层次树编码,增加了CUBE上分组聚集查询的响应速度,若维度层次树编码的数据压缩比大于1,可以降低CUBE的存储空间要求。k-匿名数据上的OLAP研究增加了k-匿名数据的可用性。为k-匿名数据的应用做出了重要贡献。
其他文献
近年来,随着互联网技术和多媒体技术的飞速发展,视频数据也呈爆炸式地增长,如何对海量的视频数据分类分析成为一个亟待解决的问题。在对视频分析时,通常先提取视频低层特征,再根据
语音情感识别旨在使用计算机技术来分析说话人的情感状态及变化,进而确定其内心情绪状态或变化,最终实现人机之间更自然、更和谐的交互过程。经过十几年的研究与发展,语音情感识
复杂场景条件下,基于图像的目标搜索与定位系统的性能不仅受目标自身特性的影响,而且受周围场景环境的影响,目标的“非显著”性是导致目标搜索性能降低的主要原因。视觉注意
移动计算设备的飞速发展已经成为转变传统计算设备发展的根本趋势。GPU在图像处理方向应用的同时,也为通用计算提供了良好的运行平台。CUDA是功能完善的图形处理器通用计算编
管道运输凭借其高安全性、低油气损耗、连续平稳、占地面积小、大运输量以及低成本等优点,已经成为了当今油气运输的主要方式。然而,管道一旦发生泄漏事故,极容易造成巨大的经济
计算机取证(computer forensics)是数字取证学科的一个分支,其通过相关的手段对计算机系统或者数字存储介质进行识别、保存、恢复和分析,获取到计算机犯罪罪行的直接证据或者间
射频识别技术(Radio Frequency Identification,RFID)读取信息方便快捷、识别速度快、动态实时通信,可以随时对物体进行追踪监控,是识别物体身份信息的一种重要工具。RFID广泛应
随着互联网技术的快速发展与广泛应用,网络提供给用户的资源与日俱增。特别是不能被传统搜索引擎通过静态链接而获取的海量信息资源规模增长显著,这部分资源称为深层网(Deep Web
VANETs(Vehicular Ad Hoc Networks)可以实现车辆间自组织地对等通信,也可以实现车辆通过基础设施RSU(Road-Side Unit)访问服务提供商的应用服务器的通信,因为其可以提供的安全
随着社会经济的快速发展,人们生活水平不断提高,通信数据业务量日益增长,频谱资源短缺等问题逐渐显现,现有的无线通信技术面临着巨大的挑战。设备直通通信(Device-to-Device comm