Spark平台相关论文
大尺度遥感图像分割对单机处理方式而言是巨大挑战。Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能。当Spark......
高压断路器是电力网络中关键的控制设备,其正常工作能够保障系统稳定运行。对高压断路器进行故障诊断能够在设备故障初期发现问题,避......
在当今信息化时代,对客户的争夺能力已经成为电商企业能否继续生存和发展的决定性因素,客户关系管理(CRM,Customer Relationship Ma......
在当今时代,科学技术飞速发展,短视频靠着短小精悍、内容丰富、生动鲜明等特点逐渐走向了日常生活。短视频作为当今休闲娱乐的重要......
晶圆的制造是一个复杂且昂贵的过程,任何一个制造环节出现问题,都会造成晶圆的缺陷。当缺陷位于“关键区域”时,会造成功能故障,导......
为了提高大数据平台处理海量数据的性能和准确性,在分析互信息(MI)算法的基础上,设计了基于MI算法的智能化运维系统入侵检测系统.......
设计并实现基于分布式平台的大数据分析处理系统,基于Spark平台用以处理大规模时间序列数据。系统框架主要分为存储层、算子层和算......
推荐系统就是帮助用户方便快捷的找到其所需求的信息,起到连通用户和信息的桥梁作用。现实情况下,由于用户难以对数量庞大的物品都......
协同过滤算法是在推荐系统中有着广泛应用的算法。但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长。针对传统的......
随着网络技术的快速发展,安全问题也越来越突出。通常,网络管理员采用多个网络安全设备同时上线工作,以应付多样化的黑客入侵方式。然......
互联网技术飞速发展,衍生出了海量的网络文本数据。但是大部分海量数据没有经过处理和分类,导致了垃圾邮件、广告推送等不良网络行......
组合优化问题是指从组合问题的可行解中求出最优解,但是目前利用传统方式解决组合优化问题需要极大的存储空间和极长的运行时间,而......
随着能源问题的进一步严峻,我国能源结构中可再生能源部分逐步增大。风力发电作为一种清洁能源,将成为未来能源结构的主体。当前风......
随着互联网和信息技术的不断发展,文本形式的非结构化数据正在不断的增加。文本分类技术能够有效地对文本数据进行组织和处理,广泛......
Web日志分析是收集用户浏览网页时产生的所有日志信息,并对这些日志进行数据转化、数据清洗、数据挖掘的过程。通过Web日志分析可......
随着网络通信技术的发展,各式各样的信息需要在网络上进行传输。图像作为信息的四大载体之一,被广泛应用到各个领域。因此图像信息......
随着信息技术的飞速发展及广泛应用,各行各业都积累了大量的数据,利用传统的数据处理技术并不能将数据中隐藏的知识得到充分的发现......
在现代社会中信息科学技术越来越重要,大数据处理、技术更新换代、商业模式的进化需求越来越旺盛,因而对大规模数据进行有效处理,......
近年来,随着移动互联网的快速发展,基于位置服务的应用也在不断地推广。典型的相关应用包括地图导航应用、外卖点餐应用及社交应用......
频繁项集挖掘用来发现数据项集中的频繁模式,在商品关联分析和超市促销策略决策中有着广泛的应用。但是,传统的频繁项集挖掘算法的......
目前,推荐系统面临着可扩展性差、数据稀疏性、冷启动、低效率、忽略评论信息等问题。本文针对这些问题提出融合评分和评论的推荐......
如今我们社会的现代化步伐越来越快速,这带动着城市的经济在迅猛的发展,也大幅度提升了我们国民整体的生活水平。随之改变的就是大......
随着信息化的飞速发展,当前各大企业的互联网资产呈现种类多、使用周期长等特点,给资产管理带来了难管理、难定位等问题.为此,本文......
在当今移动互联网时代,每天都会产生海量的数据,在这些数据中蕴含着巨大的价值,而如何从中发掘出有价值的信息已经成为一个相当重要的......
负荷分类对于指导电网发用电规划与保证电网可靠运行具有重要意义.面向负荷数据海量化与复杂化趋势,传统负荷分类方法已无法满足用......
针对当下数据大规模增长对计算能力需求的急剧增长,传统独立运行的机器在大规模网络社区中执行社区检测操作时无法提供所需的数据......
文章指出,大数据技术现在越来越成熟,大大提高了数据信息的利用率,尤其是大数据挖掘技术可以从海量的数据中挖掘具有价值的信息,为......
针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变......
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率......
考虑Spark大数据平台内存计算框架在迭代计算的优势,提出Spark平台下KNN-ALS模型的推荐算法.针对矩阵分解算法只考虑隐含信息而忽......
针对AP算法运算时间消耗过高,相似性矩阵参考度值影响聚类效果等问题,本文提出了一种基于Spark改进的AP算法,首先对无权的数据集应......
当前采集农作物施氮量信息的方式仍以人工采集为主,效率低下且对于不同生长阶段农作物氮肥的使用量无法准确掌控,为此提出一种基于......
针对现有滚轴故障预测方法预测精度差、效率低的不足,提出一种基于Aco-k means算法的滚轴故障预测方法。在Spark平台环境下,利用小......
在并行RDD-DBSCAN算法的数据划分和区域查询过程中会对数据集进行重复访问,降低了算法效率。为此,提出基于数据划分和融合策略的并......
针对云环境下空间数据连接查询处理问题,提出了一种基于Spark的多路空间连接查询处理算法BSMWSJ.该算法采用网格划分方法将整个数据......
个性化推荐作为一种有效的信息获取手段已成功应用于电商、音乐和电影等领域。已有研究多数聚焦于推荐的精度,缺乏对推荐结果的多......
基于属性加密算法因含有大量耗时的指数运算和双线性对运算,一些方案提出将加密外包给云服务器.然而这些方案并没有给出外包加密在......
当前已进入大数据时代,网络的普及和应用,也产生了大量的数据信息。用户如何进行信息甄别,快速找到自己所需的,有价值的信息,是互......
话题发现中最常用的方法是基于增量式的Single-Pass聚类算法,但是其依赖于文档的输入顺序且效率低下。针对这两个问题,提出在多层......
随着现代信息社会的蓬勃发展,互联网数据呈指数级增长,数据规模的爆炸式激增促进了“大数据”这一名词的火热,我们逐渐步入了大数......
随着新时代下信息技术的迅猛发展和广泛应用,互联网服务正在影响着人们的生产生活方式,海量的数据也随之产生,这使得利用数据挖掘......
在大数据时代背景下,数据量以指数级的速度迅猛增长。面对日益庞大的数据规模,如何从纷繁复杂的数据体系中过滤提炼出真正有价值的......
滑坡是四川省内最常发生的地质灾害,每年因为滑坡造成了大量的人员伤亡以及财产损失。为了对滑坡进行有效的防治,就需要对滑坡的形......
针对传统的推荐算法有着数据稀疏性、推荐效果不精确、大规模数据难以处理等问题,提出了一种过滤dislike因素干扰的隐语义模型推荐......
4G移动通信技术的应用为日常生活提供了极大的便利和丰富的内容,随着手机视频等消费的增长,消费者的移动数据通信需求量日益扩大。......