论文部分内容阅读
随着天文观测设备的建造和大型巡天项目的进行,天文图像数据数量飞速增长,随之而来的是对于海量天文图像数据存储与检索的迫切需求。大数据、云计算、虚拟化等新兴技术的普及使得基于云环境的服务得到广泛关注,庞大的天文数据也开始迁移到云环境中,然而“按需收费”的费用模式使得天文工作者需要支付高昂的费用。用户往往需要包含目标区域或天体的局部图像进行研究,原始全图的存储与传输会导致较高的费用和较长的传输时间与带宽消耗,因此天文工作者需要一个针对访问请求区域的子图存储服务,在进行高效检索的同时支付较少的费用。
数据表明,经常使用的数据约为整体数据的20%,而极少使用的数据约占80%,因此基于不同性能存储介质的分级存储是目前针对数据存储问题的主流研究方向。然而,目前研究中的存储策略大部分应用于擦除和写寿命受到限制的存储介质以及实时替换更新的场景中,因此只是以最大化命中率或者最小化检索响应时间为目标,并没有将费用因素考虑在内。本文针对云环境天文图像数据的实际需求,提出一种天文图像子图存储方法,建立归档存储索引以及请求数据索引,保证检索效率;提出MinCT存储方法,使用云存储中归档存储和标准存储混合存储模式,对费用成本与检索响应时间两个指标建立多约束目标的存储模型;提出MinCT_GA算法对建立的模型进行求解,最终将可能再次被用户请求的子图数据最大化的存储在标准存储中,使费用成本和请求响应时间达到相对平衡的状态。
为了验证子图数据存储与检索的性能,本文在不同请求负载下将MinCT_GA算法与按照访问频率、存储费用和取回费用排序的存储策略进行了多方面性能的对比与分析。实验结果显示,尽管MinCT_GA算法在费用成本上比存储20%数据的策略高17.99%-20.61%,但请求响应时间减少了33.75%-74.46%;在请求响应时间上比存储访问频率前60%数据的策略多0.47%,但是费用成本减少了60.04%;在请求响应时间和费用成本方面均优于其余按照存储访问频率、存储费用、取回费用排序的存储策略。
数据表明,经常使用的数据约为整体数据的20%,而极少使用的数据约占80%,因此基于不同性能存储介质的分级存储是目前针对数据存储问题的主流研究方向。然而,目前研究中的存储策略大部分应用于擦除和写寿命受到限制的存储介质以及实时替换更新的场景中,因此只是以最大化命中率或者最小化检索响应时间为目标,并没有将费用因素考虑在内。本文针对云环境天文图像数据的实际需求,提出一种天文图像子图存储方法,建立归档存储索引以及请求数据索引,保证检索效率;提出MinCT存储方法,使用云存储中归档存储和标准存储混合存储模式,对费用成本与检索响应时间两个指标建立多约束目标的存储模型;提出MinCT_GA算法对建立的模型进行求解,最终将可能再次被用户请求的子图数据最大化的存储在标准存储中,使费用成本和请求响应时间达到相对平衡的状态。
为了验证子图数据存储与检索的性能,本文在不同请求负载下将MinCT_GA算法与按照访问频率、存储费用和取回费用排序的存储策略进行了多方面性能的对比与分析。实验结果显示,尽管MinCT_GA算法在费用成本上比存储20%数据的策略高17.99%-20.61%,但请求响应时间减少了33.75%-74.46%;在请求响应时间上比存储访问频率前60%数据的策略多0.47%,但是费用成本减少了60.04%;在请求响应时间和费用成本方面均优于其余按照存储访问频率、存储费用、取回费用排序的存储策略。