面向云环境的天文图像数据子图存储方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:cngd0613
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着天文观测设备的建造和大型巡天项目的进行,天文图像数据数量飞速增长,随之而来的是对于海量天文图像数据存储与检索的迫切需求。大数据、云计算、虚拟化等新兴技术的普及使得基于云环境的服务得到广泛关注,庞大的天文数据也开始迁移到云环境中,然而“按需收费”的费用模式使得天文工作者需要支付高昂的费用。用户往往需要包含目标区域或天体的局部图像进行研究,原始全图的存储与传输会导致较高的费用和较长的传输时间与带宽消耗,因此天文工作者需要一个针对访问请求区域的子图存储服务,在进行高效检索的同时支付较少的费用。
  数据表明,经常使用的数据约为整体数据的20%,而极少使用的数据约占80%,因此基于不同性能存储介质的分级存储是目前针对数据存储问题的主流研究方向。然而,目前研究中的存储策略大部分应用于擦除和写寿命受到限制的存储介质以及实时替换更新的场景中,因此只是以最大化命中率或者最小化检索响应时间为目标,并没有将费用因素考虑在内。本文针对云环境天文图像数据的实际需求,提出一种天文图像子图存储方法,建立归档存储索引以及请求数据索引,保证检索效率;提出MinCT存储方法,使用云存储中归档存储和标准存储混合存储模式,对费用成本与检索响应时间两个指标建立多约束目标的存储模型;提出MinCT_GA算法对建立的模型进行求解,最终将可能再次被用户请求的子图数据最大化的存储在标准存储中,使费用成本和请求响应时间达到相对平衡的状态。
  为了验证子图数据存储与检索的性能,本文在不同请求负载下将MinCT_GA算法与按照访问频率、存储费用和取回费用排序的存储策略进行了多方面性能的对比与分析。实验结果显示,尽管MinCT_GA算法在费用成本上比存储20%数据的策略高17.99%-20.61%,但请求响应时间减少了33.75%-74.46%;在请求响应时间上比存储访问频率前60%数据的策略多0.47%,但是费用成本减少了60.04%;在请求响应时间和费用成本方面均优于其余按照存储访问频率、存储费用、取回费用排序的存储策略。
其他文献
互联网和社交媒体的急剧增长促进了复杂网络相关研究的快速发展,近年来一种有效的网络分析方法:网络表示学习受到了广泛的关注,网络表示学习旨在学习节点的低维稠密向量表示,然而传统的网络表示学习方法不能直接应用到符号网络中,目前专门针对符号网络提出的表示学习方法也仅仅考虑了符号网络的结构平衡理论,但是对于在现实世界中广泛存在的有向符号网络而言,Status理论往往比结构平衡理论更加适合。因此本文利用了St
学位
在不可信中继网络中,中继节点被看做是?个具有较低可信度的节点,数据在传输时需要对其保密,而从信息论?度出发的物理层安全则可以有效的做到在保证协作的同时对中继节点保密。本?主要研究了不可信中继?络下的物理层安全,提出了两种不可信中继?络的中继转发策略,其中包括:容错解码转发(decode-and-forward relay networks allowing intra-link errors,DF
在社会心理学研究中,自我报告评估和内隐联想测验分别被用于测量群体的外显态度和内隐态度,但是这两种方法都需要被试人员地主动配合,并且只能进行小规模的群体态度测量。在社会媒体中用户所发表的言论可以反映用户的态度,但是当前的文本态度分析方法并没有对群体的外显态度和内隐态度进行区分。  受到社会心理学态度测量方法的启发,本文旨在研究一种自动化方法用于测量和区分大规模群体的外显态度和内隐态度,而不再局限于小
机器学习的火热发展和计算机科技的进步,使得机器学习算法在计算机视觉领域取得了重大的进步。距离度量学习作为经典的机器学习方法在人脸识别、物体分类、材料分类等众多计算机视觉领域有着广泛的应用。同时,随着信息获取技术的飞速发展,数据的收集能力和表达形式变得越来越多样化。数据的爆炸式增长推动了机器学习算法的进步,大规模精确标注的数据在很大程度上提高了各种机器学习算法和模型的上限,但同时也增加了数据标注的难
随着网络技术的演进与发展,无论是卫星通信系统还是地面网络都面临着资源量有限、用户业务需求量增多、需求种类多样化的问题。如何快速高效地解决调度、分配与部署资源显得尤为重要。良好的调度方案能够最大程度地利用资源来满足用户需求,经济高效地达到目标。  针对资源调度问题,多卫星测控资源调度是目前卫星网络面临的主要问题之一。测控资源调度问题是指测控任务是否能在可见时间窗口内被测控设备所调度,最终实现测控需求
糖尿病是一种由自身缺陷引起的常见的慢性疾病,如果患者没有得到及时的治疗,会引发多种并发症。目前,我国糖尿病防治呈现出“三低”态势,即低知情率、低治疗率和低治愈率。对糖尿病及其相关内容进行深入的研究,有助于提高知情率、治疗率,也有助于相关药物的研发。  随着机器学习的不断完善,智慧医疗已经成为一个研究热点。本文主要对体检数据以及糖尿病蛋白标志物进行研究:在本文的第三章中,使用机器学习对两组体检数据进
网络理论是描述和分析社会、生物、物理、信息和工程科学中的复杂系统的重要工具。但是现有的大多数理论是对复杂网络的单一、静态的描述,不能描述复杂网络多样的交互模式的特性,而多层网络被提出用于刻画复杂网络这一特性。因此,近年来国际上提出的多层网络成为复杂网络领域的重要研究方向之一。但是多层网络的数据规模很大,而对其直接进行分析会造成计算成本过高,效率低下以及不易观察到隐含的模式。最近,网络表征学习被提出
学位
在目前的机器算法研究与应用中,需要海量的人工标数据去训练模型。在计算机视觉任务中大量的标注任务不仅仅给研究者带来负担,而且标注的精度也并不总令人满意。这就使得要获得大量人工标注的数据变得非常困难,也让仅需少量标注样本的主动学习算法有了极大的发展空间。主动学习的关键就在于选择的策略,而目前的大部分策略都只适用于分类问题,目前还没有很多适用于基于深度学习的目标跟踪和检测领域的主动学习算法出现。所以本文
学位
当前,基于卷积神经网络的深度学习技术在计算机视觉等多个领域取得极大成功,也是最具代表性、最有效的方法。但是深度学习技术严重依赖于标签准确且类别间数据平衡的大规模数据集。然而,大规模的标签准确的数据是极难获取的,同时真实世界的数据集大多存在类别间样本不平衡的问题。针对计算机视觉领域中的图像分类和人脸识别任务,如何有效利用标签噪声的数据或类别间不平衡的数据训练出理想的深度学习模型是一个亟待解决的难题。
迁移学习是机器学习中一个非常重要的任务,已经引起了诸多学者的关注。在实际应用领域中,例如图像识别、文本分类、自动驾驶等场景下,获得大量标记数据进行训练通常是一件非常困难并且代价十分昂贵的事情。可以获得的往往是少量标记数据或大量其他相关领域的标注数据。  随着自动驾驶技术的不断发展,驾驶模式识别问题成为越来越重要的问题。它与自动驾驶汽车的感知、决策和控制等各个方面紧密相关。本文利用迁移学习来解决自动