【摘 要】
:
近年以来,移动互联网产业和物联网产业得到的长足的发展和爆炸式的增长。在诸如通信,物流运输,金融,工业物联网和互联网领域中,种类繁多终端设备在时刻产生着大量的结构化数
论文部分内容阅读
近年以来,移动互联网产业和物联网产业得到的长足的发展和爆炸式的增长。在诸如通信,物流运输,金融,工业物联网和互联网领域中,种类繁多终端设备在时刻产生着大量的结构化数据。随着这些海量数据的产生,传统的软件技术框架已经难以满足大数据应用的需求,因此HDFS,MapReduce,HBase,Hive和其他多种Hadoop技术应运而生。Spark是一套基于Hadoop和MapReduce的开源并行架构,其工作中间结果可以存储在内存当中,而不需要像其他Hadoop系统一样存储读写HDFS。因此Spark对多种算法有更高的计算效率,获得了较为广泛的使用。Spark SQL是Spark平台中的重要组成部分,负责提供DataFrame的API接口来对内外部数据源进行关系操作,同时Spark SQL还提供了Catalyst优化器用来对诸如机器学习等领域的应用添加专用的优化策略。Catalyst优化器将使用基于规则优化或基于代价优化策略对Spark SQL语句进行逻辑计划优化和物理计划优化。其中,在基于代价优化策略中,需要使用Spark操作的统计信息估计操作的计算成本,统计信息的准确性将直接影响代价优化的结果。总所周知,连接操作是Spark SQL中最为复杂的关系操作之一,其中连接基数估计是连接操作代价优化中最难统计的信息。当前Spark SQL中通用的连接基数估计方法在数据均匀分布的情况下有较佳效果,但在数据分布不均匀情况下无法刻画数据本身的特性,导致估计结果相较真实值常有量级上的差异,影响代价优化的结果。本文针对目前Spark SQL Catalyst中连接基数估计准确率较低的问题,设计了对数据源连接操作历史情况进行滑窗采样策略,抽取特征参数并分别使用多层感知器和多项式回归两种方式抽取数据源本身的特性,同时对连接基数进行更为精准的估计。最后,本文使用了两类合成数据集和一个来自物联网生产环境的真实数据集对设计的两种连接基数估计算法进行评估,实验表明在对真实数据集的连接基数估计中,两种算法相较默认算法分别有6.03倍和7.17倍的相对误差率提升。
其他文献
在医学图像处理领域,血管内超声(IVUS)图像分割一直都是研究热点,在临床应用中能够为心血管疾病诊断提供重要的数据参考信息,该研究课题致力于对IVUS图像中的管腔、介质、斑块等区域进行提取、分割。由于血管内超声图像中多种伪影噪声的干扰,现有IVUS图像分割方法较依赖于交互信息的输入,为分割算法提供初始化信息,容易产生误差累积效应,影响了分割精度和效率。针对上述背景,本文提出了基于极值区域检测的血管
随着大飞机研制的需要对能为飞行器的研制提供重要依据的风洞试验马赫数控制精度提出了苛刻的要求,但目前已有的控制方法在变马赫数试验中存在调节时间过长、超调量过大,吹风
随着时代发展、科学技术进步,追星文化也在逐步发展。每个人都会有自己所崇拜的偶像,藏族中学生也不例外,由于他们所处的地理位置、生长环境、宗教信仰、文化习俗等方面,在追星上也有自己的特点。凡事都有两面性,理智追星可以促进学生健康成长、满足学生的需求,而盲目追星却会导致学生形成错误的价值观。中学生正处于“青春期”,心理还不成熟、看待问题不全面,所崇拜的明星会影响学生的价值观。本文以藏族中学生为主要研究对
本研究基于计划行为理论,采用文献法、问卷调查法,通过多次的实地调查,对农村小学生使用同步课堂的接受度进行研究。结果发现农村小学生接受使用同步课堂进行学习,其中有三个重要的因素影响农村小学生使用同步课堂的接受度,分别是态度、主观规范和感知行为控制。这三个重要因素对农村小学生接受同步课堂有着显著的积极影响。依据以上结果,为了加强农村小学生对同步课堂的接受度,本文提出从态度、主观规范、感知行为控制等多方
DCS(Distributed Control System,分散控制系统)又称集散控制系统,它是图形显示技术、控制技术、计算机技术、通讯技术相结合的产物,是能够完成信息管理和过程控制的现代化系
相关向量回归(Relevance Vector Regression,RVR)是机器学习领域一种旨在拟合目标数据的重要学习方法,因其具有稀疏性、全局最优性和能够利用核函数解决非线性问题等特点而备
旅游业的发展对于当地经济有着难以替代的促进作用,发展旅游在带来经济利益的同时,还有助于地区生态环境保护和历史文化的积淀,是一条绿色、可持续发展的道路。在我国,旅游业的发展离不开交通、基础设施、环境和信息服务、安全保障等旅游公共服务因素的支撑。提高旅游公共服务水平对于旅游行业可持续发展发挥着无可替代的作用。文成县是一个以旅游为主导产业的城市,旅游经济的兴衰决定了文成的兴衰。旅游公共服务体系的建立与完
孙运锦(1790—1867),字绣田,号坨南老人。清代徐州铜山著名诗人、学者和文化名人。著有《垞南诗草》《与我周旋斋百一诗录》《与我周旋斋文集》等。作为清代江浙一地古典诗歌承前启后的人物之一,孙运锦之前有陈师道、万寿祺等先贤,后有张伯英等后继者,对孙运锦及其诗歌进行整理和阐释研究,有助于了解其生平交游概貌,一窥其诗歌的总体风格和艺术特点。本论文共分为四个部分,引言部分在分析现有研究成果的基础上阐述
数据挖掘中的聚类技术是数据分析的重要手段,由于不同的数据集分布特征各不相同,传统的单目标聚类不能适应不同数据集的有效处理,因而多目标聚类逐渐成为研究热点。随着进化
目前,企业所面临的市场环境变化莫测,增加了企业在经营活动中的不稳定性,企业必须根据市场内外的复杂环境制定科学的决策来抵御、弱化经营中的风险。数据挖掘技术能够从企业