基于Spark的电商大数据分析系统研究与设计

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yuming_wu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来大数据已成为了互联网行业最热门的研究课题,电子商务平台在日常运作中,需要通过大数据分析帮助做全局性和系统性的决策。由于缺乏足够的业务数据以及专业的数据分析能力,中小型电商在运营策略定制以及调整上有明显的滞后性,使得中小型电商标准化以及智能化的发展受到了严重限制。在这样的背景下,本文研究了为中小电商平台提供丰富数据爬取、大数据主题分析、策略定制指导以及用户管理的一站式通用大数据系统。首先,本文以中小型电商的数据需求为出发点,实现了爬虫技术的应用创新,集成多种爬虫技术手段弥补中小电商数据缺陷以及进行前期数据预处理,构建爬虫工具实现了规则模板多任务并行、循环爬取以及定时爬取。创新地使用了第三方IP池突破单节点采集上限,使用XPath以及正则表达式过滤杂质信息,为数据分析源源不断地提供稳定可靠的基础数据。其次,本文对大数据集群框架进行了改进并且基于改进型框架搭建了完整的计算集群,改善了旧架构无法承担高强度数据分析任务的缺陷以及实现了业务解耦。使用新型的数据仓库分层理论并且进行了适应性修改,基于此对商品系列主题进行了数据分析,深入挖掘了商品数据的潜在价值。最后,本文基于Spring框架搭建了完整的可视化Web服务系统,依据业务需求对商品系列主题进行分析,并使用Echarts商业级数据图表,包括区域地图、堆叠折线图以及柱状图等丰富的形式对分析结果进行展示,创新地使用数据中台思想,将可视化Web端独立部署于云服务器中,完成与计算集群节点的故障隔离,极大提高了系统的可扩展性和稳定性。通过对系统集群各模块进行了全面的功能以及非功能性测试,验证了数据框架改进设计以及流程优化方案的先进性,能够满足中小型电商不断新增的生产数据需求以及策略指导需求,具有很高的应用价值。
其他文献
长期以来,乡村贫困已成为全球范围内的广大发展中国家面临的严峻社会问题,大量的农村贫困人口的存在,将构成对本国经济发展、社会稳定和家庭生计的严重威胁。当前,各国政府和跨国NGO组织在积极探索有效的反贫困策略来应对这一威胁。其中,较为典型的是Mc Knight和Kretzmann在1993年提出的以资产为基础的社区发展方式(简称ABCD社区发展)来减轻贫困的策略。本文主要研究了加纳北部实施ABCD社区
大气污染物中含氯挥发性有机化合物(Cl-VOCs)具有高毒性且难以分解,引起了研究人员的广泛关注。低温下(x-Ce O2、OMS-X、Ru/OMS-X等锰基催化剂,以期实现低温下o-DCB稳定高效的分解。研究主要包括以下内容:1.使用多孔硅KIT-6为硬模板制备了一系列三维有序介孔铈锰双金属氧化物催化剂Mn Ox-Ce O2(记为Ce Mnx,x为锰相对于铈的百分含量),并采用BET、XRD、拉曼
在氧化铝基陶瓷纤维中,α-Al2O3纤维因具有耐高温、高强度、高模量、抗腐蚀(特别是高温碱蚀及水汽腐蚀)等突出性能,是新型高温结构复合材料的先进增强体。但溶胶-凝胶法制连续α-Al2O3纤维有两个难点:一是过渡相氧化铝转变至α-Al2O3时形核率低、相变温度高,从而使相变后纤维中产生多孔“蠕虫状”结构,使纤维难以致密化;二是纤维在烧结时晶粒会快速长大至微米级别,显著降低纤维的强度。针对上述问题,本
城镇职工基本医疗保险(本文简称为“城职保”)是保障城镇职工的基本医疗服务水平的强制性医疗保险,其缴费与待遇都是高于居民医疗保险。城职保基金的运行效率关系着职工是否可以获得可持续、公平的医疗保障。研究城职保基金的运行效率在理论意义上对SFA方法的运用领域进行了丰富,在实际意义上对提高城职保基金运行效率具有现实意义。本文的创新点在于侧重于城职保基金运行效率的研究,且验证了SFA方法在城职保效率运行效率
由于基础研究和工业/军事应用的强烈需求,能够摆脱重力约束并能在垂直或倒置表面上自由移动的设备,如攀爬机器人,受到了持续的关注。他们的参与使得各种危险、复杂作业变得安全、便利且高效。但目前爬墙型机器人还存在诸多不足,例如需要笨重的动力设备、能量消耗大、可控性弱以及不具备广泛的表面适应性等。当前机器人攀爬的策略主要包括:高压静电吸附、磁性吸附、真空吸附、以及模仿壁虎足底微观结构的仿生方法。理论上,机器
伴随着互联网技术的迅猛发展,云计算作为当前重要的研究方向,国内外产生了丰富的云计算产品,如阿里云,华为云以及亚马逊的AWS等。云计算的飞速发展也使得云存储成为了当下科研机构与企业研究人员的重要研究方向。云存储以分布式的方式将用户的数据存储在云端服务器中,具有虚拟化、多用户和可扩展性高等优点。HDFS文件系统是开源框架Hadoop的底层存储系统,因其高可靠性、高拓展性、高容错性等优点得到广泛应用,成
随着信息时代的飞速发展,行人的定位与导航在军事、考古、日常出行等场景中扮演着越来越重要的角色。行人的轨迹估算常用的方法有两类,传统的方法中最常用的是基于动力学模型进行估算,新兴的方法则是基于神经网络来估算。在使用神经网络进行行人步行轨迹预测的算法中,大致上可以分为两类,第一类是对行人步行时的单一状态变量进行估算,如行走的速度、移动的位移、转过的角度等,第二类则采用端到端的学习框架,原始的训练数据经
妊娠是由一系列复杂的生理事件组成。在哺乳动物中,成功的妊娠包括受精卵的形成、胚胎植入、蜕膜发育、胎盘形成以及足月分娩。任何事件出错都将导致不良妊娠结局。而当今社会,不孕不育问题日渐突出,尤其是压力应激所导致的不孕,因此阐明妊娠建立与维持的分子机制尤为重要。而糖皮质激素是机体应激反应最重要的调节激素,在整个妊娠中有着重要作用。在小鼠模型中,过量或不足的糖皮质激素信号会严重危害妊娠。妊娠晚期,母体糖皮
在当今的工业应用中,机械臂完成某一特定作业任务的基础是先进行轨迹规划,其中一种高效智能的解决策略是加入视觉传感器。单纯基于图像的视觉伺服(IBVS),由于不能直接对相机或机械臂的运行轨迹进行控制,容易造成跟踪目标脱离视野范围、机械臂与工作空间物理障碍物相碰撞等问题。所以单单依靠基于图像的视觉伺服(IBVS)得到的机械臂运动轨迹会违反各种约束而造成跟踪任务的失败。为解决上述问题,有效的方法是将轨迹规
不定根是从非根组织生长出来的根,它不仅能够使植物耐受各种胁迫条件,而且也是营养繁殖的关键限制因素。不定根的形成受到外界环境因素以及内部遗传因子的共同调控。生长素能够促进植物根系发育和诱导不定根的形成。前期研究表明拟南芥在黑暗环境中培养会形成长的下胚轴,移至光照条件下在下胚轴部位会形成不定根;同时,光照也能够通过影响生长素响应基因的表达从而调控不定根的形成。叶绿体发育是拟南芥在光下生长区别于黑暗培养