基于Spark的电商用户行为分析系统

来源 :信息技术与信息化 | 被引量 : 0次 | 上传用户:yangshaoj2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的大数据处理框架Hadoop在执行计算任务时抽象层次低、运行速度慢、无法实时计算等问题,提出了一种基于内存的分布式框架Spark作为计算引擎的方法.结合Hadoop框架中的分布式文件存储技术,设计了一个电商用户行为分析系统.首先根据数据特点建立用户画像,然后对用户访问行为数据进行离线分析,计算网站页面转化率以及统计热门商品,最后对实时的广告数据进行分析.测试结果表明,基于Spark框架的电商用户行为分析系统能够明显提升的运行速度与稳定性,增加数据处理效率.
其他文献
针对普通深度神经网络没有很好地描述不同通道获取到的特征之间关系的问题,对网络不同通道提取的特征计算相似度矩阵,并将相似度矩阵与注意力机制结合,得到融合通道相似度的注意力模块(channel similarity attention,CSA).模块解决了不同通道内特征关系描述不足的问题,在聚合通道特征时,抑制了相似特征所占的权重.实验部分将模块嵌入残差网络(residual network,ResNet)中,分别在CIFAR-10和CIFAR-100图像分类数据集上进行测试,实验结果表明嵌入了融合通道相似度
文件监控服务可以提供实时文件更新信息,是文件型数据交互中不可缺少的底层工具.为保证文件监控服务的实时性,采用基于完成例程的重叠异步I/O(Overlapped I/O)算法,构建多线程模型,通过实时处理文件更新通知队列和用户请求队列的入栈出栈,返回文件更新信息.为了适应不同的实用场景,分别提出文件新增监控器、文件修改监控器和文件新增及修改监控器等三种文件监控器的接口实现方法,讨论了文件监控异常处理算法.经过试验验证,文件监控算法可以提供准确性高、时效性好的Windows系统本地文件目录监控服务.
针对大量软件测试人员实施自动化测试困难的问题,采用一系列工具和方法,设计了一种基于Selenium的自动化测试框架,以方便读者采用该框架,快速开展具体项目的 自动化测试.首先介绍了Selenium自动化测试工具,包括工具的特点、发展历程、组件等;然后,设计了一种Web软件自动化测试框架,框架包含了对页面对象、测试用例、测试数据、测试结果、项目文档的管理;最后,以某系统的登录模块为例,采用python语言、Selenium工具、pytest插件等介绍了该框架的实现方法.结果 表明,该框架结构清晰、易于实现,
介绍了当前市面上可用的两种主要类型数据库SQL和NoSQL的基本应用原理及功能特性,指出传统数据库应用存在的性能、容量、成本限制等方面的问题.针对大数据时代数据库应用存在的性能、隐私等方面的问题,使用斯皮尔曼等级相关系数过滤不相关属性,使用EFAST方法对每个属性进行排序,并将加密应用于排名较高的属性,以雅虎云服务基准对数据库性能和加密进行评估以考虑在不同数据库系统中进行大数据分析的效果.研究结果表明,在给定的配置下,HBase在选定的数据库中提供了最好的性能.
当前,物项验收业务工作者查询业务知识基本都是以关键字匹配为检索方式,由于关键字匹配效果有限,实际查询过程中容易发生查询结果不准或不全,业务知识利用效果不佳.针对以上问题,基于语义网的核心技术本体,以物项验收流程为索引节点,映射相关业务文档资源和专家资源,设计了验收知识管理本体模型,建立了物项验收知识管理系统.系统实现了业务工作者在业务流程中能准确查询并应用到相关知识,为核电总承包物项验收的管理提供了质量保证.
在软件市场中,如何满足用户多变的需求并快速发布用户需要的软件,是当前软件开发所面临的一大问题,而传统的开发模式已经不再适应当下的软件开发环境.基于此提出了一种基于敏捷开发的Scrum模型的改进方法.首先介绍了Scrum的基本知识;然后从两个方面指出Scrum存在的不足;之后在前人的理论研究与实践的基础上得出Scrum的开发流程、它与XP、Kanban、FDD等框架相比的优势以及Scrum的可扩展性的研究;最后提出了一种改进的Scrum模型,旨在对传统的Scrum模型进行优化,改进原有的不足,使Scrum能
针对时间序列影响已知,且边权已知的无向图路径规划问题,为了模拟现实中交通拥堵程度随天气变化而变化的情况,在“时间序列下的类0-1规划”模型基础上引入马尔科夫链,建立了基于马尔科夫链的多目标路径规划模型.在求解时假设边的权重随时间发生变化,并引入随机变量,但过去的状态不会影响当前的状态,其他条件不变.在建立约束模型之后,通过计算机模拟,并使用随机梯度下降算法进行求解.该模型能在边权变化的多目标情况下,能从一张图中较快地规划出最优路径,并且模型具有很好的可解释性和鲁棒性.
甲醛气体对人体健康伤害非常大,能诱发白血病等多种疾病.基于此设计了基于单片机的空间甲醛气体浓度检测系统.在传统的人工检测的基础上,进行根本改造,加入自动控制和三维建模,在实现麦轮小车自动检测空间各点的甲醛浓度后,在计算机上通过算法进行数据分析,绘制出三维模型.系统设计用最简单的电路布线和选用最经济实用的器件来达到设计要求,同时集成电路元件,制作成电子积木,方便更换,不用专业人员操作,节省人工费用.
随着信息技术的发展,编程技术变得越来越重要.目前互联网上的开发工具多而杂,大家很难找到适合自己的编程软件.针对以上问题,设计了一种采用Django框架和MySQL数据库搭建基于个性化推荐技术的软件推荐平台.平台包括软件查询、软件下载、软件介绍、评分和评价、基本信息管理、标签分类等功能,并结合软件标签、软件热度、软件相似度等个性化推荐技术,帮助编程学习者快速找到适合自己编程工作的软件工具,从而提高工作效率,培养更多技术人才.
针对在复杂的野外环境中识别人员移动的产生的震动信号时高虚警率高误报率的问题,首先对野外环境下采集的震动信号进行小波降噪,降低环境噪声对目标识别的干扰;然后通过MFCC对震动目标信号进行特征提取,最后将提取到的特征合成特征向量并输入到设计的支持向量机中对信号进行分类识别,通过采集野外环境下的人车震动信号对方案进行实验验证.实验表明,方案有很好的鲁棒性.