SparkSql 相关硕士博士期刊学术论文

SparkSql相关论文

基于Spark的元数据管理系统的设计与实现

随着高校数字化建设的深入开展,全国各个高校都在加快建设自己的数据中心,其中的一卡通平台,教学系统和科研管理等系统每天都会产......

学位

数据治理元数据管理 SparkSQL 血缘分析元数据质量

融合Spark SQL的系统误差性能评价技术指标研究

提出了一种融合Spark SQL技术的系统误差性能评价方案,解决了在工业控制系统存在大量数据时往往需要对数据进行分析、处理的问题,......

期刊

数据分析 Spark SQL 大数据误差性能指标控制系统品质

基于代价模型的SparkSQL查询优化研究

近几年,Spark作为下一代通用大数据计算平台,因其高效的海量数据处理能力得到了越来越多企业和研究人员的关注。Spark SQL作为Spar......

学位

查询优化代价模型 Spark 数据库

基于Spark的分布式网络日志处理系统的设计与实现

通过用户浏览网页时的网络日志分析,可发现用户的一些浏览习惯,从而有针对性的对网站进行改进,给用户带来更好的体验。本文通过搭......

期刊

WEB日志 flume系统 Hadoop文件系统 SparkSQl

Spark环境下SQL优化的方法

将传统SQL稍加改动后迁移到大数据平台是实现业务平稳过渡最佳办法,但是传统SQL所处理的数据量、运行环境与大数据平台完全不同,因......

期刊

SPARK 大数据 Spark SQL

基于Spark SQL的数据源连接器的设计与实现

随着大数据时代的到来,用户对于海量数据计算和存储的需求不断提高。Spark作为一个基于内存计算的分布式计算框架以其优异的性能在......

学位

大数据 Apache Spark Spark SQL 数据源连接器

Spark数据倾斜场景解决方案的研究与应用

数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,......

学位

本地化 Spark SQL 数据倾斜 MDP 动态绑定

基于运行时统计数据采集的Spark SQL查询优化研究

大数据时代,各行各业与互联网的紧密结合产生了海量的业务数据,通过分析这些业务数据可以为公司制定更好的运营策略,从而提升公司......

学位

查询优化 Spark SQL 运行时布隆过滤器 Sketch

基于高速网络的数据倾斜性能优化研究

硬件技术的不断发展推动了数据处理系统的更新迭代。在计算方面,现代CPU多核、众核技术的成熟让大多数据处理系统选择采用数据分区......

学位

数据倾斜 Spark SQL 数据偷取分布式计算 RDMA

基于Spark SQL的定制化查询引擎

Spark SQL使得开发者和数据分析师可以在Spark应用程序中便捷地直接使用SQL语句在结构化或非结构化的数据集上查询数据。它给开发......

学位

大数据分布式系统数据库查询优化索引 Spark SQL

基于成本的Spark SQL优化

大数据时代,挖掘海量信息中蕴含的价值,对海量信息进行快速处理成为各个行业的迫切需求。随着Spark的广泛应用,Spark SQL作为一个......

学位

Spark SQL 成本优化 Join算子物理计划自动缓存策略

基于Spark平台的支持标准SQL语法的数据分析工具

近年来,大数据领域的技术发展已经吸引了来自学术界和科技产业界甚至开发者社区越来越多的目光。如何针对密集性大数据高效的完成......

学位

大数据 Apache Spark Spark SQL 标准SQL语法工具

Spark SQL查询执行优化技术研究

随着互联网的快速发展,政府机关、企业与研究机构每天都要产生和处理的数据规模已经达到TB级乃至PB级。虽然Hadoop的出现解决了大......

学位

Spark Spark SQL 中间数据缓存基于代价的优化

基于SPARK的两表连接基数估计算法研究

近年以来,移动互联网产业和物联网产业得到的长足的发展和爆炸式的增长。在诸如通信,物流运输,金融,工业物联网和互联网领域中,种......

学位

Spark SQL Catalyst 连接基数多层感知器多项式回归

SPARK SQL系统查询优化的研究与实现

信息化技术的普及与移动互联的迅速崛起,带来了前所未有的“大数据”时代。数据量的飞速爆炸,使得利用及研究数据面临重大挑战,怎......

学位

Spark SQL 布隆过滤器直方图 Data Skipping

基于脚本语言的网络流量分析与优化

这些年来,随着互联网规模的急速增长,对网络流量的监控与分析逐渐成为了一项重要的事情。由此产生海量数据的存储、计算和分析已经......

学位

网络流量分析性能优化 Hadoop SparkSQL Impala 文件格式压缩

基于梯度提升决策树组合模型的二手车金融用户画像系统

中国线上二手车交易起步较晚,且国内信用体系尚待完善。目前国内二手车的金融用户筛选主要使用规则模型系统,通过人工拨打电话,近......

学位

不均衡数据处理 Spark SQL 用户画像机器学习效率优化

Hadoop环境下基于SparkSQL海量自动站数据查询统计初探

在Hadoop分布式计算和存储架构下,自定义ETL数据清洗规则将海量自动站小时单站文件按所属年和站号合并为大文件流转存储至HDFS中,......

期刊

HADOOP HDFS SparkSQL ETL HadoopHDFSSparkSQLETL

基于文本信息的SparkSQL处理研究

本文以图书信息为例,介绍了Spark中对结构化数据进行处理的组件SparkSQL,使用SparkSQL转换文本信息文件为DataFrame数据集,然后运......

期刊

文本 SparkSQL Scala

SparkSql上自适应数据集的高效频繁集挖掘算法

针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSq......

期刊

频繁集大数据候选集自适应数据布隆过滤器 SparkSql frequent episodesbig datacandidate setadaptive

基于开源SparkSQL平台处理传统网管性能数据研究

本文针对传统网管OMC北向性能数据，通过基于内存计算的sparksQL技术进行处理，有效提升了基于Hadoop的大数据平台的计算能力，整合了分......

期刊

OMC 北向性能数据网管 SparkSQL 内存计算

基于分布式架构的智能学术大数据存储与挖掘

科学研究是提高社会生产力和国家综合国力的战略支撑。在全世界范围内,每年在计算机科学、基础科学、医学、经济学和社会学等一系......

学位

关系型数据库结构化查询语言窗口函数 SQL-on-Hadoop SparkSQL 机器学习

看过本文同时还关注