论文部分内容阅读
伴随着科技的发展,社会生活的信息化程度不断提高,在每天的生产生活中都会产生大量的数据,如何有效地存储并查询这些数据对未来的生产生活有重要意义。近年来云计算与云存储的兴起为海量数据的存储与查询提供了更有效地解决方法,越来越多的应用开始向云端迁移。本文依托于“海洋环境信息计算与服务体系框架”的国家海洋公益项目。针对国家海洋局中海量时空数据存储分散与管理复杂的特点,本文研究实现了基于HDFS的时空数据共享系统;针对保护用户时空信息查询隐私的研究目标,本文实现了时空数据的查询隐私保护算法。基于HDFS的分布式文件共享系统的框架分为三层:基础层、接口层、服务层。基础层使用Apache MINA、Java、Mysq1、HDFS实现,四者分别负责消息通信、数据传输、用户信息存储、数据存储功能。接口层负责管理基础层资源并向服务层提供服务接口,该层分为数据传输模块、用户管理模块、文件管理模块三个模块。服务层负责系统的业务逻辑处理,该层解析用户消息并调用接口层模块提供的服务执行用户请求。本系统为每个用户指定存储空间,多个用户可以共用同一存储空间,同时共享里面的文件。海洋局存储着海量时空信息,现有的隐私查询算法在进行查询时效率较低,针对这种不足本文提出了空间最近邻与空间范围隐私查询算法。本文在CPIR-V算法的基础上提出了SCPIR-V算法,该算法通过寻找潜在最近邻点集的关系来压缩计算矩阵,从而减少查询时的计算代价与通信代价,该算法可以在服务端无法获取查询位置的前提下向用户返回包含最近点的空间信息。通过对比试验可以看出SCPIR-V算法在高斯分布与真实数据下可以提高查询性能,在均匀数据下算法查询性能在网格划分较多时较好。本文将CPIR算法应用到空间范围查询中,并在朴素的空间范围查询算法的基础上提出了基于分组的空间范围查询算法。实验结果表明基于分组的查询算法的通信代价没有显著增长,而服务端与客户端计算性能优于朴素查询算法。海洋数据中的时间信息会随着数据的采集不断的增长,现有的隐私数据查询技术无法满足用户需求,为此本文提出了基于CPIR的时间信息隐私查询算法与时间范围隐私查询算法。本文分析了时间信息的基本特征,通过改进朴素时间插入算法提出了基于动态调整的时间插入算法与基于动态哈希的时间插入算法。算法通过设置数据集的数目与排列方式使服务端无法判断查询内容与查询结果。最后本文将三种算法应用到时间范围查询中。本文对三种算法进行了实验,当对单一时刻进行查询时,动态哈希算法效率较高;进行范围查询时,在客户端计算时间与通信代价并不显著增加的情况下,动态哈希算法服务端计算时间较短,随着通信带宽与客户端计算能力的提高,动态哈希算法具有更好的性能。