论文部分内容阅读
随着互联网技术的飞速发展与普及,网络购物给人们的生活带来了很大的便利,日益成为一种重要的购物方式。为了提升客户的参与感,在收到商品之后,各电商平台都允许客户对所购商品进行评论,这些评论信息直接体现了客户对商品功能或性能方面的情感态度,因此对商品评论进行文本挖掘具有重要意义。然而网络评论数据量巨大,多为半结构化、非结构化数据,且其中的无用评论较多,如何快速的获取商品评论语料以及选取何种方式分析成为研究的关键问题。针对上述问题,本文结合SparkR平台提出应用文本情感分析来挖掘商品评论中的特征属性信息。同时,由于人工智能的来临以及人们家居生活方式的改变,本文选取的研究对象是京东商城上行业排名前五的智能冰箱评论,通过对评论语料中智能冰箱各属性的情感倾向性分析,获取各属性在市场上的褒贬评价。首先,本文利用搭建的SparkR平台通过爬虫来获取智能冰箱的评论语料,将其按品牌分别存储到MySQL数据库中,并对评论语料进行简繁转化、错别字替换、无用评论剔除等数据预处理操作,在把评论语料初步分为正面情感和反面情感的基础上,选取情感倾向性比较明显的评论作为训练集,利用K-means聚类算法进行再次分类,以提高分类的准确性。然后,对正反分类之后的文本进行分词、词性标注、主题分析和句法分析。最后,基于句法关系分别对正反评论中的特征词和情感词组合进行抽取,并计算智能冰箱各特征属性的情感极值。五款不同品牌智能冰箱的研究结果表明,与行业前五的智能冰箱平均表现相比,海尔品牌在外观、噪音控制、发热控制、售后服务等方面得分较高,具有较强的市场竞争优势,但是在保鲜、性价比、智能性方面表现不足;美菱品牌在保鲜、能耗、发热等方面的得分均处于五款冰箱的中间水平,而且其外观和噪音控制的设计较差;西门子品牌在智能性、压缩机、噪音控制和工艺的设计上市场评价得分较高,但其价格偏高;三星品牌在冷冻速度、压缩机的性能设计上市场评价较好,具有较强的市场竞争优势,但其在噪音、价格、能耗和售后服务上的表现较差,而且三星是所研究的五款冰箱中市场评价得分最低的品牌;美的品牌在智能、外观、空间、质量、性价比、性能等方面具有较高的得分,处于行业领先地位,具有较强的竞争优势,但在能耗、发热、款式设计、内部设计、包装等方面得分较低,需要在今后的设计中改善这些方面,以进一步增强其市场竞争力。