面向Spark计算架构的COStream语言扩展方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:falconlingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算应用的执行效率及资源利用率的优化是一个重要的研究领域。应用的配置信息是影响整个云操作系统效率的关键因素。Spark是一个应用广泛的云计算框架。COStream作为一门源到源的数据流编译语言,可以充分挖掘目标程序中的并行性。鉴于COStrean和Spark均采用DAG图记录数据的流向和操作,通过COStream对Spark程序内部的并行性进行预分析即可生成最佳的配置信息。为了生成最佳的配置信息作为云操作系统中的协调标签,提出了通过COStream预编译自动生成Spark应用和最佳配置信息的方法,此方法相较于编程人员手动指定的方法更为精准。为了实现COStream预编译的步骤,对COStream编译框架进行改造,扩充了COStream面向Spark平台的语法和结构,使其能够生成Spark Core和Spark ML模块的应用文件。为了生成精准的资源配置信息,对COStream原有的划分算法做了一定改造。选取了Spark应用中关键的资源配置参数,通过对程序内部结构的分析,以及参数之间的关联性,设计并实现了各参数的计算规则。选取非迭代式的Word Count和迭代式的K-Means以及Logistic Regression算法进行实验。实验结果表明,扩展后的COStream编译框架能够正确生成对应的Spark目标程序和相应的配置信息。通过程序内部结构分析生成的资源配置信息即为最佳的资源配置参数,可作为资源需求标签应用在云操作系统当中,优化程序执行效率,提升底层资源利用度。
其他文献
随机过程是概率论的一个重要研究领域,对一些随机现象的刻画,需要用随机过程来研究.随着科学技术的发展与完善,随机过程理论广泛应用在物理、生物、经济、管理、工程技术等众多领域,同时这些领域的需求也促进了随机过程理论的发展.近年来,很多学者研究了轨道为凸函数的随机过程的性质、不等式以及应用,取得了一系列的结果.本文主要研究了两类凸随机过程及其不等式.在均方连续、均方可微、均方可积的意义下,类比凸函数的思
第一部分PARP1参与新生小鼠心脏再生和心肌细胞增殖背景:成年哺乳动物心脏在受到损伤时不能再生,结果导致瘢痕修复和心脏重塑。而低等脊椎动物如斑马鱼的心脏能够终身保持再生能力,常用作研究心脏再生的动物模型,但是其应用受到种属进化差距较大的影响。最近研究发现新生小鼠心脏也能够再生,这为心脏再生的研究开辟了一条更为方便的道路。PARP1作为一种存在于细胞核内的蛋白修饰酶,其在心脏发育和心肌细胞肥大中都有
该课题组前期从发酵蔬菜中分离并鉴定出一株凝结芽孢杆菌13002,在前人的研究基础上,该研究进行凝结芽孢杆菌发酵乳生产工艺的优化。以凝结芽孢杆菌13002、保加利亚乳杆菌CGMCC 1.290、嗜热链球菌CGMCC 1.2741共发酵的新型发酵乳为研究对象,以不同菌种复配比、菌种接种量、发酵基低聚果糖添加量进行单因素实验,再以感官评分为响应值,通过Box-Behnken中心组合建立数学模型研究发酵乳
器官是高等动物重要的功能单位,对器官结构的研究有利于了解器官的功能,并支持相关的疾病研究。利用近年来发展的显微光学成像技术,可以实现器官水平的细胞分辨三维成像。基于高分辨率三维数据,数字切片技术可以实现对完整器官在任意角度获取细胞分辨率的切片。然而,如此高分辨率的成像获取的单套数据可达TB级甚至10 TB以上,给数字切片带来了大数据挑战。现有的数字切片方法工具仅能对GB级数据切片。实现10 TB以
简单液体理论是20世纪后半叶凝聚态物理学所取得的最重要成就之一。在这一理论中,硬球模型和范德瓦耳斯模型抓住了原子或分子间排斥作用在决定液体结构中所发挥的核心作用;相反,吸引作用的效应可以简单地用一个平均场近似来处理,即吸引作用被认为只是提供一个空间均一的背景相互作用以维持液体的稳定,其对液体结构和动力学的影响甚微。然而,越来越多的证据表明,液体中存在一系列复杂现象,吸引作用在这些现象中扮演着重要角
由于维数灾难,高维空间的最近邻查询效率十分低下。而作为一种众所周知的解决方案,局部敏感哈希能够以常数的概率在亚线性时间内回答近似最近邻查询问题。但是,现有的粗粒度索引结构无法准确地估计候选点和查询点的距离,这会使得算法检测了大量不必要的候选点,继而降低了查询过程的性能。相比之下,本文提出了一种快速准确的基于内存的局部敏感哈希框架,称为中枢测度局部敏感哈希方案(Pivot Metric Locali
化学链燃烧是一种具有CO2内分离特性的新型燃烧方法,是解决化石燃料碳减排问题最有前途的技术之一。就我国“富煤、贫油、少气”的能源结构来说,发展煤的化学链燃烧技术是当务之急。作为一种实现固体燃料化学链燃烧的方式,化学链氧解耦燃烧(Chemical Looping with Oxygen Uncoupling,CLOU)因能够促使固体燃料转化速率与氧载体转化速率更相匹配而具有更加现实的应用前景。在煤的
研究背景2型糖尿病非酒精性脂肪性肝(Nonalcoholic fatty liver disease,NAFLD)的主要特征为糖脂代谢紊乱。而盐诱导激酶1(Salt-inducible kinase 1,SIK1)对于糖脂代谢有重要的调控作用,SIK1可磷酸化环磷酸腺苷转录调节共激活因子2(c AMP Regulated Transcriptional Coactivator 2,CRTC2)与固
半导体激光器和光放大器在光通信、光互联中有着极其广泛的应用。受限于非对称、小尺寸的有源区,其远场光斑不对称且发散角通常较大,因此与光纤的耦合效率较低,从而导致功耗和封装成本增加。本文提出了一种小发散角的半导体光放大器(Semiconductor Optical Amplifier,SOA)和一种小发散角的法布里-玻罗(Fabry-Pérot,FP)激光器,并分别对它们进行了优化设计和实验研究。本文
概率图模型是人工智能领域重要的统计机器学习模型之一,在个人信用风险评估、自然语言处理、生物医学等领域有广泛应用,非参数贝叶斯模型是其中特殊的一类,具有非参数模型和贝叶斯模型的双重特征。但其模型复杂度高,研究难度较大,尤其表现在非参数模型的模型结构、模型大小和分布函数可随观测数据的变化而变化,参数数量可随样本量增加而增长,导致机器学习时,分布函数难以确定,分布采样难度增加等问题。根据非参数贝叶斯模型