基于数据挖掘的电子商务产品质量风险评估技术研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:quindavid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和信息技术的发展,互联网不可阻挡地进入了人们的生活,并且改变了人们的生活方式。但由于电子商务的虚拟性、跨地域性,消费者所购买的产品可能会存在质量风险。针对该问题,本文在前人的研究基础上,提出了基于电子商务平台的用户评论数据的风险评估模型,该模型可以准确地识别风险,评估风险等级,发布相应的预警信息,使得监管人员对风险做出快速的应对措施。如何客观的评估产品质量的风险,使得监管机构对其做出快速的反应是本文的研究重点。本文主要研究了以下几个方面:本文对电商产品数据通过R语言的数据处理技术对数据进行空值和异常值处理以及使用基于Spark并行化ansj的jar包对数据集进行中文的文本分词和去停用词处理,从而得到预处理后的训练数据。然后在随机森林的袋外数据的特征属性中加入噪声,并将计算所得到误差进行重要性排序,以此来进行电子商务产品质量风险评估的特征选择,并在Spark计算框架上实现。在电子商务产品质量的风险评估中,提出了一种基于Spark并行化的改进朴素贝叶斯算法来建立风险模型。朴素贝叶斯算法是假设特征之间相互独立,然而在实际中,它们之间是息息相关的,所以利用MinHash来计算特征属性与决策标签之间关联程度,对贝叶斯算法中的条件概率进行加权运算,并在Spark实现算法的并行化。本文通过构建基于Spark大规模集群进行了仿真实验。在UCI数据集上,验证了基于Spark并行化的改进贝叶斯算法相比于朴素贝叶斯算法及其串行算法在准确率、召回率以及时间上有更好的效果。当实验数据增加时,串行算法的执行效率低下,然而在Spark分布式环境中,其效率明显提高。所以基于Spark的并行化算法在大数据下具有更好的可扩展性和优越性。实验表明将模型应用在电子商务平台的用户评论数据时,模型能够准确地识别电子商务产品质量风险,然后做出风险预警。从而提出了一种新型的风险监管模式。
其他文献
我县从2009年在少云镇高碑村和石庙村开展乌鳢人工养殖至今有5年时间了,现在养殖规模达1000余亩,成鱼产量3000吨左右,所需鱼种都是自养。根据笔者这几年在少云镇高碑村和石庙村
单分散性气溶胶发生器是氡室中控制氡子体浓度和平衡因子时必要的仪器。为实现氡室中氡子体浓度的控制和氡子体附着放射性气溶胶行为规律的研究,自行搭建了一套冷凝式气溶胶发
<正> 苏童曾说过:“我写《妻妾成群》,主要是想变变花样,向传统退一步,关注故事、人物,看看有些什么效果。而过去则是有意对之进行消解。”“向传统退一步”,就意味着承续传
中韩两国自1992年正式建立外交关系以来,经济和贸易往来十分密切。双边货物进出口贸易总额从建交之初的50亿美元上涨到2014年的2000亿美元。目前,中国是韩国最大货物出口国,
地温升高是深部开采无法回避的地质灾害问题。在深部开采条件下,地温升高是井下工作条件恶化的重要原因,持续的高温将对人员的健康和工作能力造成极大的伤害,使劳动生产率大大下
指出了小麦淀粉与谷朊粉生产的重要性;简要叙述了小麦淀粉与谷朊粉生产的历史、典型工艺及最新动态。着重介绍了韦斯伐里亚公司的三相卧螺工艺,并对新旧工艺进行对比,指出了
旅游信息系统是描述采集、存储、加工、处理分析和输出旅游信息的一种决策支持系统,旅游信息系统也是一个技术系统,是以旅游信息数据化为基础,采用地理模型分析方法,适时提供
19世纪60年代末到70年代前半期,是英国开始由惟利是图、效率至上的社会阶段向寻求社会和睦、兼顾社会公平的社会阶段转型的启动时期,同时也是英国自由主义新旧体系交替的转轨时
中唐诗人贾岛、姚合是具有独特地位的一对诗人组合。他们极端苦吟的创作态度、奇涩精警的五律体制、清寒幽僻的艺术旨趣,在中国文学史上产生了深远的影响。中晚唐姚贾诗人群体
随着信息技术和互联网技术的快速发展,移动医疗服务这一新型医疗方式的出现,不仅极大了缓解了我国日益紧张的医疗资源状态,也提高了人们对于自身健康管理的能力。但我国的移