基于Spark的归并迭代研究及在金融分析中的应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:szscan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术在人类生活中的普及,生物信息学、互联网技术和计算机科学等领域的崛起,数据量呈现爆炸型增长的趋势。同时,数据挖掘、机器学习等计算机技术的发展,使得越来越多的迭代分析算法运用到实际的应用场景中去,例如智能化推荐系统、高性能计算、社会网络分析等。然而在大数据环境下,迭代算法也出现诸多的不适用性。我们注意大数据迭代分析算法期望作用在全集数据而非局部数据之上,而“全集”又是相对的,即迭代分析算法既会在作用于局部数据又会作用于全集数据,而当局部数据进行汇总后,局部数据的迭代结果将不再适用,需要在汇总后的全集数据上进行重新迭代计算。因此利用已有的局部数据的迭代结果计算得到全集数据上的迭代结果,避免不必要的重复计算所带来的资源消耗,能很大程度上提高迭代分析计算的性能和效率。在本研究中,我们提出了基于Spark的归并迭代计算模型,归并迭代计算模型在不损失迭代结果精度的情况下利用现有的迭代数据分布情况对迭代数据进行区内迭代,并合并区内迭代结果以得到最终迭代结果。归并迭代计算模型分为区内迭代步,误差弥补步以及合并迭代步,其中区内迭代步在归并迭代计算开始前已经完成。本文通过数学公式与理论分析证明了归并迭代计算模型的正确性和性能优势。在实现部分,本研究基于现有Spark计算框架的相关实现进行改进并实现归并迭代计算模型。最终,通过一系列的金融分析用例进行实验测试,证明了归并迭代计算在功能和性能上达到了加快金融分析算法效率的目的。因此,归并迭代计算模型在金融分析领域具有一定的指导意义。
其他文献
四唑类高氮化合物的热安定性对其生产、运输、贮存、及安全都有着重要的意义。本论文采用热重分析技术(TG)、差示扫描量热技术(DSC)和动态测压热分析技术(DPTA)系统地研究了
研究区大地构造位于天山-兴蒙造山系(Ⅰ级),大兴安岭弧盆系(Ⅱ级),东乌旗-多宝山岛弧(Ⅲ级),属内蒙古弧形褶带东乌珠穆沁旗构造带与新华夏大兴安岭隆起带交汇部位。本文以“
玻化微珠保温混凝土是适应我国建筑节能和结构自保温体系的发展而提出的新型混凝土材料。其性能可实现普通混凝土抗压强度与绝热材料低导热系数的结合。试验研究及工程试点均
膜分离是化工、食品以及环境工程领域中常用的分离方法之一。在水处理领域,无论是饮用水处理还是废(污)水处理,膜分离均有着十分广泛的用途。然而,膜分离过程中,随着污染物在膜表面截留,引起跨膜压差(TMP)逐渐增大,导致膜滤效率逐渐降低,是该过程所必须要解决的问题。动态膜(dynamic membrane,DM)技术是采用膜支撑材料,利用颗粒膜材料在支撑体上形成的一层薄膜实现分离作用。作为一种新型的水处
近年来,环境中微塑料污染与危害引起了世界各国的广泛关注。微塑料可与重金属、持久性有机物或微生物等形成复合污染物,破坏生态系统的稳定性,并且可随着食物链的富集与迁移危害人类的身体健康。然而目前关于微塑料问题的探讨主要汇集于海洋系统,对淡水环境中微塑料的认识不够全面。沉积物是微塑料一个重要的汇聚处,进行淡水沉积物中微塑料的污染研究至关重要。沉积物微塑料主要源于水体,在水动力搅动下沉积物中微塑料可能会重
利用CO2驱油提高高含水油田的采收率、实现CO2的地下埋存,是一个解决我国主力老油田的产量不断递减且后备储量极度不足以及全球范围内温室效应加剧现象的重要契机。在CO2驱油
锅炉换热器积灰仍是一个具有挑战性的问题,了解颗粒的撞击过程对研究灰沉积现象非常重要。本文借助先进的颗粒追踪技术——粒子阴影图像测速(PSV),在高温颗粒碰撞实验台进行煤灰颗粒与平面的惯性碰撞特性研究,并通过数值模拟手段对实验台颗粒撞击系统进行优化,为颗粒碰撞机理研究提供理论基础。首先,自主设计与搭建的高温颗粒碰撞实验台,并规划出多仪器联用方案,为颗粒碰撞特性研究提供基础性实验环境。该实验台可实现单
四环素类(tetracyclines,TCs)抗生素是一类广谱性抗生素,主要包括四环素(Tetracycline,TC)、金霉素(Chlortetracycline,CTC)、土霉素(Oxytetracycline,OTC)、强力霉素(Doxycycline,DC)、地美环素(Demeclocyline,DMC)、米诺环素(Minocycline,MNC)、美他环素(Metacycline,MTC
《政府采购协议》(The Agreement On Government Procurement,简称GPA)是WTO下规范政府采购行为的诸边贸易协议。GPA试图将国际贸易中的公平竞争机制引入政府采购领域,完善各
当今大数据时代,有越来越多的卫星传感器发射成功,所获得的遥感影像光谱分辨率、空间分辨率分别得到较大提髙的技术背景下,论文选题就如何发挥不同遥感数据源的各自优势,提高