论文部分内容阅读
互联网电子商务的快速发展使得网络购物成为一种潮流,网购给各大电商平台和生产厂家带来机遇的同时也带来了挑战,除了开发、升级产品带动消费外,商家还需要了解用户的心声,才能尽可能满足他们的真正需求,随着网购的兴起,消费者利用网购平台发表自己的购物体验以及对商品、服务等的看法已经成为一种趋势,随之也产生了海量的评论数据,而在这些评论文本中包含着许多有价值的潜在信息,因此通过对商品评论信息的分析,一方面能够为商家发现产品的缺点、提高产品质量、改善服务态度提供有力的依据,另一方面能够让消费者全面了解产品有利于选购。本文的研究对象是笔记本电脑的在线评论数据,首先利用八爪鱼数据采集器采集数据,将京东商城采集到的华为荣耀MagicBook2019和华硕Vivobook超薄笔记本电脑的评论数据作为分析语料;接下来对文本数据进行清洗和预处理,包括文本去重、中文分词、去停用词等,然后将处理后的文本向量化,表示成计算机能够识别的结构化数据。在本文的情感倾向研究过程中,考虑到监督学习方法需要已经标注好的文本,所以本文采用构建词典和机器学习相结合的方法,既解决了人工标注的繁琐问题,同时加入了支持向量机、K近邻以及朴素贝叶斯三种文本分类算法进行算法比较,先对训练集建立分类模型后将模型应用于测试集中,通过查准率、召回率、值三个指标对分类器做评估,根据实验结果得到最优的分类器为支持向量机;同时本文还对消费者评论数据进行了特征分析,利用词云图可视化技术对产品的特征有了一个初步认知,然后对两款笔记本电脑的正面评论和负面评论分别建立LDA主题模型,利用主题向量之间的余弦距离,通过R语言编程求解得到最优的主题个数,在此基础上归纳出消费者对商品的看法,发现消费者主要关注的是电脑运行速度、外观、便携性、系统、性能、屏幕显示效果以及售后服务等属性。最后结合文本挖掘分析结果的差异性,针对性的为两个品牌的生产商提供可行性建议,同时根据电脑的优劣差异为消费者购买决策提供一定的参考。