基于分布式的海量巡天星表锥形检索研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:lowsong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内外众多巡天观测计划的进行,我国载人航天工程重大科学项目—光学舱地面应用系统研发工作也进入了重要的收尾阶段,预计将采集多达PB级别的海量观测数据,并经过科学的处理手段生成了典型的天文数据产品天文星表。天文星表为天文研究工作者解决天文异构数据提供重要解决方案的同时为锥形检索的实现提供了重要抓手。天文科学家通常以某个特定区域来进行专项研究工作,对他们来说,如何准确、高效地进行天文星表的检索是天文科学家后续研究工作的重要基础。传统的星表检索过于依赖于传统数据库的索引技术,但是随着星表数据集的数据量不断增加,传统数据库的逐渐达到存储瓶颈,并且索引也随之不断增加,造成更多的数据冗余,其次就是单机的计算资源无法满足如此海量数据的处理,造成星表数据的检索效率低下。所以,面对海量天文星表数据,不仅要提高其锥形检索效率、而且需要更加长期可靠的检索方式,这正是我们亟待解决的问题。本文针对海量天文星表数据锥形.检索时的难题进行研究,.解决其传统关系型数据库无法.满足高效检索难点,.提出解决和改进方案。本论文的主要工作如下几点所示:一、从天文工作者的角度出发,分析天文星表的特点和检索的需求,发现了随着星表数据量增大,传统数据库本身对星表所需建立的索引和物化视图的效率不高,需要耗费大量资源和时间,同时单机性能面对十亿以上级别星表数据检索,显得捉襟见肘。本文采用新的DIF插件集成到My SQL数据库中,将原本的二维的索引(赤经、赤纬)映射到一维空间中,节约了资源的同时,大大的减少了建立索引的时间。在此基础上,为了缓解单机环境性能不足以及存储压力,提出了利用数据库中间件技术对大星表数据进行分库分表,充分整合关系性数据库和分布式技术的优点。二、在利用数据库中间件技术对关系型数据库进行横向扩展时,发现了关系型数据库的行式存储架构不利于跨库联合操作,以及随着节点增多,各节点的数据通信的代价随之增大的问题。本文对比列式存储和行式存储的架构之间的差异,分析了硬件和软件层面的并行优化原理,从而理论证明列式存储比行式存储在天文星表检索中更加高效,更加节省计算和存储资源,扩展性更强。三、为了验证列式存储数据比较于传统数据库方案在进行星表检索的优越性,本文分别搭建了数据库中间件My Cat和My SQL数据库的分布式集群,并搭建了Click House+Zoo Keeper的集群,对比测试了两种方案进行星表数据锥形检索的性能,以及两者的可扩展性等,验证了列式存储数据库不仅在数据存储,还是在检索效率上都具有明显的优势,这种优势还随着集群的扩展不断增大。综上所述,论文针对传统的星表数据检索,提出了分布式行式存储数据库方案,并通过DIF插件优化伪球面索引的方式,在一定程度上解决了传统行式存储模型下进行锥形检索,效率不高,数据冗余的问题。在此基础上,又提出了列式存储的分布式解决方案,相较于分布式行式存储数据库方案,锥形检索效率得到提高,并且具有更好的扩展性。总之,本文提出的两种锥形检索优化方案,都能满足当前几十亿级别星表的锥形检索的需求,能实现近实时的检索,同时发现列式存储架构未来发展潜力也是更大的,可为其它天文星表的锥形检索提出了借鉴和参考。
其他文献
发动机制造过程涉及到的制造环节众多,工艺过程十分复杂,大幅提升了制造过程溯源的难度和溯源技术的要求。目前,发动机制造过程质量溯源面临着溯源公信力不足、数据中心化存储隐患、信息记录存储安全难以保障的问题,导致生产制造的汽车发动机出现了各种质量问题,给用户与车企带来了巨大的损失。针对上述问题,本文将具有去中心化、防篡改、易溯源、自信任等特点的区块链技术引入到发动机制造过程质量溯源体系中,提出了一种基于
薄膜晶体管液晶显示器(Thin Film Transistor-Liquid Crystal Display,TFT-LCD)凭借其体积小、功耗低和响应速度快等优点在新型显示器行业占据越来越大的市场份额,制造商之间的竞争也变得尤为激烈。因此,提高产品质量和生产效率成为制造商保持优越性的重要因素。然而,TFT-LCD制作过程中缺陷种类较多,采用人工目视检测方法具有稳定性差、耗时长、检测标准难以统一等
元谋县位于云南省中北部,北接四川省攀枝花。境内植被覆盖度较低,山地与半山地区域占比较大,区域内发生的地质灾害次数较多,使得当地人民的生命财产安全饱受威胁。地质灾害风险性评价不仅考虑地质灾害发生的可能性,还考虑到地质灾害发生后会造成的损失程度,这样做出的评价结果,可以为当地发展规划提供一定的理论依据。本文以元谋县为研究区域,通过野外实际调查及收集资料得到元谋县地质条件及地质灾害发育特征。本文选取了坡
如今,随着部分劳动密集型产业向越南的迁移,中国和越南在政治经济领域的交流合作愈发密切,及时把握越南新闻媒体的舆情及观点表达对中越政治、经济领域的交流有着重要的影响。由于语言障碍,在网络上获取的越南语新闻很难去人工理解和分析其舆情观点。同时可以发现汉越可比语料间内容关联度较高,主题高度相关,主题词有部分区别,可在双语语料间共享使用。基于这种特点,本文研究了汉越可比新闻观点句抽取和情感分类方法,在与越
随着工业机器人和服务机器人领域快速的产业发展,移动机器人定位技术在广泛的行业应用中引起了众多关注,在室内摄影测量相关的同步定位与制图(Simultaneous Localization and Mapping,简称SLAM)在该领域中的研究最为火热。采用室内摄影测量技术的视觉SLAM算法大都基于特征点进行数据关联和后端优化,但在某些光照较低和弱纹理的场景下,由于特征提取数量的不足,导致SLAM系统
随着三维测量设备的更新换代和计算机数据处理技术的快速发展,三维扫描技术能够快速准确的获取物体表面的点云数据信息。基于多线激光的三维扫描技术,因其适用环境广泛、设备安装方便、易于商业化开发等优点,被广泛地应用于点云数据的采集工作中。初始的点云数据需要通过点云数据处理技术进行加工,提取点云数据中各种不同的特征信息,才能满足人工智能、逆向工程、工业自动化等各个领域的应用需求。本文针对基于多线激光稀疏点云
近年来,图像融合在信息融合,计算机视觉和机器学习等新兴科技领域中发挥着至关重要的作用。在一些机器视觉任务中,现有的成像传感器设备仍然存在技术上的局限性,使得摄像机的镜头只能聚焦在自然场景中特定景深或一定距离内且具有高对比度和清晰度的物体上,否则目标就会变得模糊。因此,为了可以精确地评估输入图像的模糊度,识别出尽可能多的目标和细节信息以及高清晰度区域,并将这些有效的数据结合起来生成信息量更加丰富的图
随着我国智能制造发展的趋势,人机智能交互成为核心任务之一。在人机智能交互过程中存在文本数据的读取和传递,这些数据通常包含大量长文本信息。为了高效地进行关键信息传递和交互,需要筛选和总结其中的重要内容,使用的方法称为生成式文本摘要提取。然而,现在文本摘要的方法主要用在短文本摘要提取,但是对长文本还鲜有研究。文本的长度影响网络模型生成摘要的质量,长文本包含更多的信息,扩大输入文本长度,能够获得较完整的
随着人类科学技术的进步,记录事件发生的时空事件数据越来越丰富,基于事件类型的时空序列模式挖掘研究在诸多领域有着广泛应用。由于领域中的先验信息未知,参数模型会对模式匹配精度造成影响。此外,由异常数据表征的事件异常模式通常发生于一定时空范围内,考虑数据属性间相关性且适用于长度变化序列的时空异常区间检测方法是发现时空事件序列模式的一个重要组成部分。针对事件序列模式挖掘的异常检测和触发模式匹配两方面问题,
由于现代无线通讯技术的迅猛发展,频谱资源匮乏的问题变得越来越严重,尤其是随着5G的普遍应用资源匮乏问题也愈加明显。如何在现有频谱资源的基础上提高其利用效率成为当前的研究重点。因此D2D(Device-to-Device)作为一项终端设备直通技术受到通信界研究者的持续关注。D2D技术可以极大的提升系统资源的利用率,缓解基站(Base Station,BS)的压力,让系统拥有更快的传输速率以及更大的容