论文部分内容阅读
自经济全球化以来,网络普及切实的影响着人们的日常生活,利用网络等线上渠道消费也成为了极为普通的事情。天猫、京东等在线产品销售网站的出现方便了消费者,使消费者可以足不出户的获取自己所需的来自全球的商品,但是在线商品鱼龙混杂,销售网站中存在着较多假冒伪劣、以次充好的商品,产品质量问题频发。针对该问题,本文在前人研究的基础上,提出了一种以并行化大数据框架Spark为载体、以基于MinHash加权改进的贝叶斯分类器为模型、以最广大消费者最直接的用户评论为基础的质量风险评估与预警方法。本文所改进的风险评估模型性能优良,效率高、成本低、取得的效果较好,在准确识别潜在风险的同时又能评估风险等级,并进行相应的舆情预警,使政府监管者和相关从业者都能尽早、尽快的发现风险并作出应对,防患于未然。本文的主要研究内容如下:为获取一线消费者最直接的用户评论,本文基于MyEclipse平台,采用JAVA语言自主开发“用户评论采集”程序从“天猫”、“京东”、“亚马逊”等主流在线产品销售平台中获取对应产品的用户评论信息,对比分析了进行在线产品质量风险评估、预警时常用的分类、挖掘算法如贝叶斯算法、SVM算法以及BP算法等。提出了一种基于相关性分析加权改进的贝叶斯分类模型。文中深入研究、总结了已有的贝叶斯分类算法,发现已存的贝叶斯分类器并不适用于在线产品质量风险评估与预警工作。在线产品的特征属性之间彼此相关、相互影响,很少两两独立存在,而函数可以用来完成相关性分析,即量化爬取数据集的特征属性和风险等级(即决策类别)之间的相互作用,并计算出一个特定系数用于对特征属性加权,完成对模型的改进使之更适用于在线产品的风险评估与预警。为应对大数据级别的评论样本量,引入大数据处理框架Spark。本文中从Spark的诞生背景与发展史开始,介绍了其基本结构与工作原理,并分析了 Spark所特有的基于内存运算的全新的存储方式RDD及其后续衍生出的作用各异的生态系统组分 Spark SQL、Spark Streaming、MLlib、GraphX 等。最后在 Ubuntu 16.04上进行实证研究,实现了改进后的风险评估模型在Spark中的并行化运行,使之能够高效的完成大数据下的在线产品风险评估工作。本文以对“防紫外线服”为例来进行了实证研究,依次探究了用户商品评论挖掘、爬取数据的初步处理(如中文分词、数据去噪等)、用户关注的重点风险属性的提取以及对评论集的降维、改进模型的训练应用的全过程,完成了“防紫外线服”这一在线产品的风险评估与预警工作,并从效率和准确率上对模型进行了对比分析。随后分析了本文的研究对政府监管者和相关经营者这两种不同人员的意义所在,并给出了一些针对性的意见。经实证,本文提出的风险评估与预警模式效率高、成本低、取得的效果较好,有很高的实践应用价值。