基于数据挖掘的电子商务产品质量风险舆情监测技术研究

来源 :中国计量学院 | 被引量 : 1次 | 上传用户:woaiwodeqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来电子商务产业发展势头迅猛,由之产生的问题也日益凸显,一个重要的问题是电子商务产品质量。一些企业为了追求短期经济效益,生产假冒伪劣产品。风险舆情数据可以为质监部门解决电子商务产品质量问题提供风向标,从而实现电子商务产品质量问题“准确监测、智能预警”。电子商务产品信息和评论作为风险舆情数据的一种,能够集中反映出电子商务产品质量问题的趋势走向,具有极大的参考价值。本文从文本分类的角度入手,从数据挖掘领域出发,结合文本表示模型、特征降维、分类算法的设计和选择等方面展开研究,完成了以下工作及研究成果:(1)构建电子商务产品信息和评论文本表示模型。产品信息和评论作为一种短文本,结构复杂,计算机无法理解其语意,所以需要通过分词、去停用词等操作将其转化为结构化模型。为了方便统一地表示产品信息或评论内容,引入VSM空间向量模型。模型中每一列表示一个样本,每一行表示一个特征值,用0或1表示特征值的存在与否,那么所有非0的特征值就组成一条完整的文本信息,以便计算机识别存储。(2)对电子商务产品信息和评论文本特征集进行降维,提高分类效率。即使去除标点和停用词,一条文本内容包含的特征值依然很多,整个文本内容特征集的规模会极大影响分类算法的执行。IG信息增益算法通过对特征值信息熵的排序剔除没有贡献的特征,可以对特征集进行有阈值的选择。(3)通过构建快速自编码神经网络,使RELM能够快速的计算隐含层节点权重,从而实现特征降维。原始的RELM正则化极限学习机常用于数据分类,将自编码神经网络的原理应用于RELM,使得改进后的RELM实现特征提取的功能。自编码神经网络继承了RELM计算快速的优点,有效提高特征提取速度。(4)选择分类算法对电子商务产品质量信息和评论数据进行分类。支持向量机在处理非线性数据方面的优势使得实验取得了较好结果,但是相对RELM,其分类速度相对较差。实验结果表明,RELM在分类效率要优于SVM算法,分类准确率与SVM相当。
其他文献
上市公司是我国各行业的优质资产,是国民经济发展的重要力量,分析并评价上市公司竞争力具有重要的理论及现实意义。当前对上市公司竞争力进行的研究还很少,考虑到制度因素对
传统的报应性司法模式建立在国家与社会高度重合的一元化结构之上,将犯罪视为“孤立的个人反对统治阶级的斗争”,犯罪发生后,由国家对犯罪人提起公诉,对犯罪人判处严厉的刑罚
介绍了大跨度钢结构网架健康监测的原理、过程及意义,阐述了国内结构健康监测技术的应用现状,详细说明了健康监测的技术路线及实施方案。
<正> 任何科学的研究都离不开对历史的考察。深入考察会计准则产生和发展的历史,有助于我们更好地探求会计准则的规律,对于当前研究和建立具有中国特色的会计准则体系具有重
直接功率控制比矢量控制、直接转矩控制这两种控制方法控制效率要高,但稳定性却不是很理想,定子电阻的变化是导致稳定性降低的一个重要原因。本文提出了一种基于定子电阻补偿
互联网对信息收集和处理成本的降低使信息化建设逐渐回归到“信息资源”的本质上,随着移动互联网的发展,大量可移动联网设备每时每刻都在创造海量的数据,这些数据实时、活跃
蔡元培是我国近代教育改革的杰出的先驱者。他的教育实践和教育思想,涉及基础教育、大学教育、社会教育、职业教育、女子教育、儿童教育等各个领域。他为我国教育事业作出了
以封闭TDI(甲苯二异氰酸酯)胶束和PVAc(聚醋酸乙烯酯)乳液作为主要原料,采用机械共混法制备了单组分PVAc-TDI复合胶粘剂;然后,以此作为木材胶接件用胶粘剂,采用高频加热技术
空间碎片以及废弃卫星对在轨运行的航天器是一个不容忽视的重大安全隐患。针对目前可行的离轨手段,利用导电缆绳与地磁场相互作用产生的洛仑兹力使空间飞行器特别是低地球轨
TRIGAT(第三代反坦克导弹)寄希望于虎式(Tiger)直升机英国宇航公司(BAe)已发出警告,如果英国不选择欧洲直升机公司与英宇航公司的虎式(Tiger)反坦克直升机,那么英国就将不得不退出对该中远程TRIGAT导弹负责的三国