论文部分内容阅读
随着网络技术和信息技术的发展,互联网不可阻挡地进入了人们的生活,并且改变了人们的生活方式。但由于电子商务的虚拟性、跨地域性,消费者所购买的产品可能会存在质量风险。针对该问题,本文在前人的研究基础上,提出了基于电子商务平台的用户评论数据的风险评估模型,该模型可以准确地识别风险,评估风险等级,发布相应的预警信息,使得监管人员对风险做出快速的应对措施。如何客观的评估产品质量的风险,使得监管机构对其做出快速的反应是本文的研究重点。本文主要研究了以下几个方面:本文对电商产品数据通过R语言的数据处理技术对数据进行空值和异常值处理以及使用基于Spark并行化ansj的jar包对数据集进行中文的文本分词和去停用词处理,从而得到预处理后的训练数据。然后在随机森林的袋外数据的特征属性中加入噪声,并将计算所得到误差进行重要性排序,以此来进行电子商务产品质量风险评估的特征选择,并在Spark计算框架上实现。在电子商务产品质量的风险评估中,提出了一种基于Spark并行化的改进朴素贝叶斯算法来建立风险模型。朴素贝叶斯算法是假设特征之间相互独立,然而在实际中,它们之间是息息相关的,所以利用MinHash来计算特征属性与决策标签之间关联程度,对贝叶斯算法中的条件概率进行加权运算,并在Spark实现算法的并行化。本文通过构建基于Spark大规模集群进行了仿真实验。在UCI数据集上,验证了基于Spark并行化的改进贝叶斯算法相比于朴素贝叶斯算法及其串行算法在准确率、召回率以及时间上有更好的效果。当实验数据增加时,串行算法的执行效率低下,然而在Spark分布式环境中,其效率明显提高。所以基于Spark的并行化算法在大数据下具有更好的可扩展性和优越性。实验表明将模型应用在电子商务平台的用户评论数据时,模型能够准确地识别电子商务产品质量风险,然后做出风险预警。从而提出了一种新型的风险监管模式。