支持非等值连接的分布式数据流处理系统

来源 :华东师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:yxhangyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时处理的分布式数据流系统在当今大数据时代扮演着越来越重要的角色.其中,连接查询是大数据分析处理中最为重要且开销较大的操作之一.然而,由于现实应用产生的数据普遍存在倾斜分布现象,加之数据流本身的无界性与不可预知性,给在分布式数据流系统上进行连接查询处理提出了严峻的挑战.目前工业界较为主流的数据流系统处理连接查询的通用性较低,没有提供专门针对连接操作的接口;学术界推出的数据流连接查询原型系统虽然提供了接口,但大多面向等值连接,或仅能支持部分theta连接,且存在资源开销大、负载均衡性能低等问题.本文对比分析
其他文献
使用广义的Riccati技巧,研究了一类具有阻尼项的分数阶差分方程Δ{r(t)[Δαy(t)]γ}+p(t)[Δαy(t)]γ+q(t)f[Σs=t0t-1+α(t-s-1)(-α)y(s)]=0,t∈;Nt0+1-α,得到了其解的振动性的一些新准则.所得的
用灰色关联度作为测度的方法对我国16个省的25个品种10个营养指标的金针菜品种资源进行了综合评判,选出了优质品种,其结果是:四川渠县的黄花最好,甘肃庆阳的马兰黄花第2,湖南的四月花第3,贵
农业科技与其它领域科技一样,也是第一生产力,但农业科技本身只是一种知识形态的潜在生产力,需要经过试验、示范、推广一系列物化环节,才能转化为推动农业生产迅速发展的现实生产
本文提出了一种新的构造非线性演化方程行波解的并行算法.我们在Maple18上实现了该算法.通过设计并行算法并使用负载均衡技术,其中的软件PREM的计算效率明显高于已有的串行软件.
中早熟棉花品种,其丰产性和稳产性均优于中熟类型品种。根据陕西关中地区自然资源及耕作制度发展,本文提出早熟应是本地区棉花品种选育和选择的关键目标之一。
针对医院现有优秀科室、文明窗口考核评价系统的不足,设计开发了新的优秀科室、文明窗口考核评价系统,其主要设计实现了科室自查、科室督查、科室调查、科室互查、窗口自查、
摘要:针对高校非计算机专业学生计算机水平差异较大的问题,提出多维度协同下计算机基础课程系统分层的观点。通过对课程设置、课程内容、学生分层、实验分层、案例教学等多个维度对课程分层教学实施系统改革。将分层教学运用于整个课程的教学中,使用案例教学增强实验教学的趣味性和实用性。  关键词:多维度协同;计算机基础;分层教学;案例教学  随着全社会信息技术的不断普及和深化,中小学计算机教育随之发展,大多数学生
依据辩证唯物主义观点,从人的思维机制与过程可以知道,在主体感知客体对象形成观念之后,观念就脱离客体对象而具有了相对独立性和客体存在性,而且具有内在性和自生成性.当主
摘要:随着互联网技术的发展,人类产生的数据量正在呈指数级增长,Hadoop作为大数据领域的常用工具,在现代生活中发挥着至关重要的作用。Hive是基于Hadoop的一个数据仓库工具,在做查询统计分析时最终翻译成Hadoop平台上的MapReduce程序运行,当数据量不断增大时,就会使得查询效率[5]下降。该文就此提出了一种Hive与Spark结合的方案,将Hive的查询作为Spark的任务提交到Sp
随着基于位置服务应用的不断推广,空间文本数据查询的应用价值(例如结合地理位置和用户标签的社交推荐)也在不断提高.但是,随着数据规模的迅速增长,传统的基于单机环境实现的技