论文部分内容阅读
伴随着电子信息专业技术的发展进步,尤其是物理信息系统、服务网络、云计算和社交服务互联网等技术的飞跃式发展,大数据随处可见,大数据在为人们创造巨大使用价值的同时,也带来了巨大挑战。数据的质量问题就是大数据的重要挑战之一。另外,随着大数据时代的到来,数据集的规模越来越大,传统的数据分析方法已解决不了大规模数据集的问题,而挖掘大数据背后的隐藏的信息,尤其是在电子商务领域,成为企业之间竞争的关键因素。例如,阿里巴巴与京东都使用了主流的云计算平台用于大数据分析,这也说明了电商企业对大数据挖掘分析的重视。目前全球还尚未形成统一的大数据质量评价体系。我们通过对已有数据质量的研究,并依据大数据的4个特征“体积大、种类多、处理速度快、价值密度低”,确定了5个质量维度:可得性、可用性、可靠性、关联性、和外观质量。对于每一个维度,我们确定了1-3个要素,并对每个要素进行详细说明。最后我们根据这个大数据质量标准,提出了一套大数据质量评价体系。通过数据质量评价体系评估后得到优质数据就可以用于分析研究,为企业创造价值。我们根据得到的大数据质量评价体系,对所采集的电商数据进行评估和预处理,然后采用一种基于并行计算的支持向量机法对该数据进行分析。该方法首先将训练样本通过SOM自组织神经网络分类方法分成若干个工作子集,并在每个工作子集上训练支持向量机学习器,最后对各个工作集的训练结果进行合并,从而达到快速处理海量数据预测分析问题。本文提出的大数据质量标准及质量评估体系具有良好的扩展性和适应性,能满足大数据质量评估的需要。对解决质量评估方法稀缺这一瓶颈,具有一定的意义。最后考虑到并行支持向量机在数据挖掘与分析中的卓越性能,我们将该方法用于对电子商务的大数据分析中,研究结果表明并行支持向量机很好地解决了处理大规模数据集时出现的效率低下问题。