大数据处理中MapReduce框架的Q-sample算法设计

来源 :现代计算机 | 被引量 : 0次 | 上传用户:zzdlily_7000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决大量重复数据导致MapReduce的混淆消耗过大及网络传输拥堵的问题,设计了一种基于MapReduce框架的相似连接算法Q-sample.该算法首先将Q-sample的子串进行分割以减少过滤阶段的子串数量,从而减少网络传输数量,进而减少相似连接所耗费的时间,然后通过设计三个匹配过滤器和一个统计特征过滤器的方法来提高过滤效率,最后进行相关实验.实验结果表明,算法有效地提高了MapReduce众局部相似自连接速度和字符匹配的过滤效率.
其他文献
随着信息过载问题日益严重,对新闻长文本进行自动摘要,不仅可以帮助读者实现快速精准地浏览,也能够减少撰写摘要所需要的人力物力.现有的自动文摘算法主要分为抽取式和生成式两大类,前者注重从原文抽取关键句子,后者倾向于模仿人类总结摘要的过程对原文进行理解和压缩.然而现有的算法中,面向中文长文本摘要的研究较少,并且大多数算法都聚焦于提升生成摘要的可读性而忽略了事实准确性.针对以上问题,本文提出了一种基于实体注意力的生成式摘要算法,将实体注意力与时序注意力相结合,并将实体信息引入了损失函数.经实验,所提出的模型在中文
Photoshop CS 6是目前使用比较广泛的一款图像处理软作,也是我校文科类学生的必修课之一.在设计图片、图像修改等方面发挥着重要作用.进行图像处理时,选区抠图是一个重要的知识点,直接关系到我们处理图像水平的高低.那么选择Photoshop中的哪一种工具去进行选区抠图,就显得至关重要.因此对于图像处理人员来说,掌握好选区抠图的方法与应用具有重大意义.
近年来,国家先后出台了多条支持新能源车产业发展的政策.《节能与新能源汽车产业发展规划》称,未来十年,中央财政将投巨资支持核心技术研发推广,资金数额达上千亿元.而要实现这一目标,政府的扶持将会是新能源汽车产业在现阶段得以稳步发展的最有力的驱动.在国家政策大力扶持下,新能源汽车在2021年再次成为行业最大亮点,呈现出市场规模与发展质量双提升的良好局面 ,为“十四五 ”汽车产业高质量发展打下了坚实的基础 .
期刊
中文短文本分类是自然语言处理的重要领域之一,文中提出了一种基于多维度图神经网络的短文本分类方法,通过对文档中的中文词语进行建模,分别构建序列边、词频边、主题边与结点信息相融合以达到提取深度语义信息的目的,提高图神经网络的分类能力.通过和现有方法对比,本文提出的基于多维度图神经网络的短文本分类方法具有更高的准确率,能够有效的达到中文短文本分类的目的.
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法.利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分.将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分
分类学习方法有一个基本假设,即不同类别的样本数量相当.样本数量分布不均衡,会影响分类的准确率.针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority over-sampling technique,CMOT),避免了算法“对少数类不友好”的情况.具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构.其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡.对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到
数据元作为数据标准,是构建高质量数据资产的基础,因此数据元质量需要被管控.针对数据元质量管控需求,本文基于国内外数据元和数据质量的研究成果,提出了数据元质量评价方法,给出了数据元质量的评价指标、综合指数和评价过程.该方法通过对数据元质量进行量化,实现对数据元质量的精确度量,为数据元质量的精确管控提供了依据.
在陶瓷药瓶生产过程中,容易出现瓶口破碎或不完整等情况.为解决陶瓷瓶口的缺陷检测问题,本文提出了一种基于卷积神经网络CaffeNet模型的陶瓷瓶口分类方法.该方法利用工业生产的瓶口残次品和正品建立样本数据集,利用卷积神经网络的卷积层和池化层对残次品、正品的图像特征进行提取,通过求得最小的交叉熵损失来获取适配本样本数据集的最佳权重,已达到较好的分类效果.此外,在给定相同数量测试数据集的情况下,使用CPU、GTX 1060 Mobile、GTX Titan X Pascal和华为Atlas200DK对给定数据集
Polar码是目前仅有的一种在数学上被严格证明且能够实现香农信道容量的一种信道编码方式.但是,在译码方面依然存在严重的时延问题.针对存在的问题,提出基于校正搜索宽度的极化码译码算法.该算法采用跟踪历史数据、采集历史数据以及对合格历史数据进行数学运算的方法,不断调整、校正搜索宽度,降低执行串行抵消列表译码的次数,进而降低解码时延,提高解码效率.仿真结果表明,该算法能显著地降低解码代价和时延,且保持性能不变.
极化雷达具有全天时全天候对目标和场景进行观测的优势,在诸多领域得到广泛应用.极化雷达作为一种多通道系统,不同极化通道间的交叉耦合和通道不平衡等非理想因素会使目标极化散射矩阵存在测量误差,进而影响对目标散射的解译性能.文中以人造目标为研究对象,利用极化测量误差模型和相干极化目标分解开展了极化测量误差对散射解译性能的影响研究.以Krogager分解为例,推导了三面角、二面角、偶极子和螺旋体等基本散射体的极化目标分解分量与测量误差源的解析表达式,给出了分解特征参数的变化曲线图,揭示了极化测量误差对散射解译性能的