【摘 要】
:
随着大数据时代的到来,如何高效地对数据进行管理显得愈加重要。数据管理的难点,一方面在于数据量的急速膨胀,系统所要处理的数据量已远远超出单台机器的负荷。另一方面,则在
论文部分内容阅读
随着大数据时代的到来,如何高效地对数据进行管理显得愈加重要。数据管理的难点,一方面在于数据量的急速膨胀,系统所要处理的数据量已远远超出单台机器的负荷。另一方面,则在于在不同的业务部门之间数据格式不一,数据来源异构且数据无法共享,难以进行异构数据集成并统一管理。除此以外,为了保证数据的高可用性,往往需要在多个服务器中存放同一份数据的多个副本来防止数据的丢失,而在这种情况下,如何高效保证源服务器与备份服务器间数据的一致性也是数据管理中不可忽视的一个环节。本文从课题研究背景出发,着眼于文件增量同步和异构数据集成两大功能模块的研究,提出了基于供求聚合模型的OAA(Object Access Agent)数联卡工具,该工具主要从以下三个方面展开研究:(1)基于CDC(Content-Defined Chunking)的文件增量同步方法实现,本文基于Rsync算法的原理,针对其计算时间消耗较长的缺点,提出了基于CDC的文件增量同步通用方法。该方法利用CDC算法抗字节移动能力强的特点,极大地降低了计算弹性,使其不会由于增量数据大小的增加而导致计算时间消耗的急速增加。在高速网络环境下,与Rsync算法相比,该方法具有更小的计算时间消耗与计算弹性,具有较强的实用性。(2)异构数据集成功能实现,本文以核心配置文件为驱动,以Spark分布式计算框架为基础,把异构数据集成功能根据计算流程从逻辑上分为了数据抽取,数据连接,数据转换,数据注入与定时同步共五个模块并进行相应的实现。此外,我们为Spark分布式计算框架中一些并不友好的设计进行了优化,允许通过动态注册UDF的方式实现数据转换以及基于分布式并发编程的方式进行数据注入,对Spark的原生功能进行了进一步的扩展,使得OAA数联卡工具在异构数据集成功能中具有较强的实用性与灵活性。(3)供求聚合模型的应用与功能扩展,该模型以“供求关系”组织服务间的通信,支持服务的动态加入和功能扩充,本文对实现的文件增量同步功能与异构数据集成功能进行封装,并以挂件形式挂载至模型中,形成OAA数联卡工具,允许其他用户通过该模型进行相关服务的调用。除此以外,针对供求聚合模型数据处理功能的缺失,我们基于消息系统为其添加了数据缓存与数据访问功能,提高了模型内部对数据的可操作性。
其他文献
随着诸如汽车电子、微处理器等应用系统愈发复杂,需要安培级大电流的场合也越来越多。LDO凭借结构简单、成本低、高电源纹波抑制能力以及快速瞬态响应能力等优点,逐渐占据了过去由开关电源把持的15A的应用领域。如今的电源和热管理趋势是尽可能降低电源电压以减小静态功耗,这会导致MCU和DSP等负载电路对电源电压的变化更为敏感。因此,安培级LDO系统设计中的一个重大挑战是在高摆率负载电流转换期间将输出电压的波
近年来,随着深度学习技术的不断发展,越来越多的研究人员、企业员工等希望利用深度学习技术来理解视频内容。其中,基于视频的行为识别任务得到了许多研究者的关注。对视频中
随着深度学习的快速发展,互联网行业愈加贴近人工智能的研究初心。其中,计算机视觉和自然语言处理这两大研究方向,帮助机器模拟人类的视觉和语义理解,使得深度学习在人工智能
在银行系统的管理中,许多应用系统涉及到系统稳定性以及业务安全性的考虑,始终难以将应用系统对接银行单点登录平台。而银行系统运行的特征是7*24小时不间断服务,而无论业务人员或是系统维护人员都可能在任何时点能够登录系统,应用系统与单点登录对接虽然大大方便了用户对于系统的使用,但对于运行的稳定性,多一层系统的应用就会多一层系统运行的风险。银行业务系统的连续性、实时性始终是银行信息系统运行的首要目标。传统
近年来,可见光促进的光化学反应取得了极大的进展。可见光是一种廉价、清洁且相对温和的可再生能源。因此,利用可见光催化来合成复杂分子具有较好的前景。此外,含氮杂环化合
作为信息抽取的核心任务,有效的关系抽取是信息爆炸时代的一大挑战。本文在进行关系抽取这一基础性研究时发现,现有的模型在应对长而复杂或无直接实体关系触发词的句子时,往往很难有效地抽取其中蕴含的实体对关系。而这种句子在自然语言文本中是普遍存在的,这使得关系抽取的效果遇到了瓶颈。本文深入调研并分析了国内外在关系抽取方面的研究。在融合更多更深层次信息的思路启发下,本文提出实体类型嵌入(Entity Type
图像增强技术自适应地为普通图像(主要体现为光照、对比度等的不和谐)赋予适当的美学特征,同时保留图像的内容细节。给定普通图像,多数现有工作仅输出唯一的具有统一美学样式的增强图像,该样式来自于给定的参考图像集。然而,不同用户的审美偏好、具体应用场景均可能存在较大差异,这需要图像增强技术具有单一模型多模态处理的能力,给出尽量多样化的输出供用户选择。与此同时,图像内容和样式特征需要充分解耦,并有多模态融合
近年来,随着全球市场移动数据需求的爆炸式增长,移动网络运营商们都在寻找更为有效的数据传输方式。而无线接入作为移动网络传输的最后一环,由于频谱资源的有限,往往会成为限
2017年10月颁布的“国家教育事业发展十三五规划”指出,要注重培养职业教育学生的实践能力,在教学中要注重提高学生的实践经验,把实践教学作为深化教学改革的关键环节。许多
降水是一个复杂且非平稳的大气过程,受地理位置、地表状况及大气环流等的综合影响,不同区域内的降水过程存在较大的差异性。因此,研究降水的多尺度时空特征、识别同质降水区