电子商务领域中大数据的质量及预测分析研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:shilibin2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着电子信息专业技术的发展进步,尤其是物理信息系统、服务网络、云计算和社交服务互联网等技术的飞跃式发展,大数据随处可见,大数据在为人们创造巨大使用价值的同时,也带来了巨大挑战。数据的质量问题就是大数据的重要挑战之一。另外,随着大数据时代的到来,数据集的规模越来越大,传统的数据分析方法已解决不了大规模数据集的问题,而挖掘大数据背后的隐藏的信息,尤其是在电子商务领域,成为企业之间竞争的关键因素。例如,阿里巴巴与京东都使用了主流的云计算平台用于大数据分析,这也说明了电商企业对大数据挖掘分析的重视。目前全球还尚未形成统一的大数据质量评价体系。我们通过对已有数据质量的研究,并依据大数据的4个特征“体积大、种类多、处理速度快、价值密度低”,确定了5个质量维度:可得性、可用性、可靠性、关联性、和外观质量。对于每一个维度,我们确定了1-3个要素,并对每个要素进行详细说明。最后我们根据这个大数据质量标准,提出了一套大数据质量评价体系。通过数据质量评价体系评估后得到优质数据就可以用于分析研究,为企业创造价值。我们根据得到的大数据质量评价体系,对所采集的电商数据进行评估和预处理,然后采用一种基于并行计算的支持向量机法对该数据进行分析。该方法首先将训练样本通过SOM自组织神经网络分类方法分成若干个工作子集,并在每个工作子集上训练支持向量机学习器,最后对各个工作集的训练结果进行合并,从而达到快速处理海量数据预测分析问题。本文提出的大数据质量标准及质量评估体系具有良好的扩展性和适应性,能满足大数据质量评估的需要。对解决质量评估方法稀缺这一瓶颈,具有一定的意义。最后考虑到并行支持向量机在数据挖掘与分析中的卓越性能,我们将该方法用于对电子商务的大数据分析中,研究结果表明并行支持向量机很好地解决了处理大规模数据集时出现的效率低下问题。
其他文献
滑坡是整个三峡库区中最突出的地质灾害之一,许多已建、在建工程项目都受到滑坡的危害,尤其当三峡库区蓄水到175 m后,库区地质灾害问题将更加突出。笔者以三峡库区中某具体滑
攀枝花钢铁(集团)公司是我国十大钢铁企业之一, 曾名列我国工业企业50强。在这样一个特大型钢铁企业中建立现代企业制度, 其中要面临许多的困难,例如资产获利能力差、效益低下、资
随着Internet和WWW技术及其应用的日益普及,网络动画飞速发展,使得时序图形图像在这一领域的研究日趋活跃。本文在分析了国内外时序图形图像发展现状的基础上,对新兴的基于矢量
路桥表面的抛丸处理对提高沥青或涂料与路桥表面的黏结强度、增大水泥混凝土路面或沥青混凝土路面的摩擦力能起到重要作用。路桥表面抛丸处理作为一种新型的路桥表面处理工艺
随着量子密码学领域研究的深入,视频会议、网络游戏、股市交易等动态群组通信模型对量子组密钥提出了应用需求。为了很好地服务这类应用,在分析传统组密钥管理方案的基础上,给出
随着住房制度改革的不断深化,建立与之相适应的住房社会保障体系已经提上日程。住房作为人类社会的“衣食住行”四大基本需求之一,不仅是生产资料和享受资料,同时还是重要的生存
数学应用是数学教育的重要内容,呼唤数学应用意识,提高数学应用教学质量,已成为广大数学教育工作者的共识。开展中学数学建模教学与应用的研究,对提高学生数学应用意识,培养学生灵
“课程思政”是基于“思政课程”的价值属性,发挥高校各门课程之间的协同作用,围绕培养时代新人的总体目标形成合力,共同培育德智兼修的高素质人才。高职大学语文教师必须具
为提高港口运营效率评价的精确性,在传统数据包络分析(DEA)模型的基础上,提出三阶段DEA法,对港口的技术效率、规模效率和纯技术效率等进行评价,并运用主成分分析(PCA)法确定最终
本文从不同角度对吴郡张氏家族在南朝时期的活动情况加以全面考察,以期弄清该家族的发展脉络,并对该家族的兴衰原因作一探讨。在结构上分为相互独立而又相互联系的上、中、下三