基于电商商品评论文本的情感分析研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hyhf_lwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量电商商品评价信息中蕴含着巨大商业价值。同时,大量的电商商品评论信息给人工甄别和选择带来了极大的困难,因此,如何采用高效的情感分析技术使计算机能自动地对电商商品评论信息进行情感分类,给购物者和商品生产企业提供更加准确的评论情感信息,帮助用户快速了解商品口碑,正确选择商品,帮助企业改善商品品质。本文的主要目的是对电商商品评论进行情感分析,主要研究工作包括:1、商品评论的预处理工作。选取某电商网站上的手机评论作为研究对象,使用爬虫进行数据采集,对获取的评论数据进行文本的预处理工作,主要包括文本初筛过滤、数据清洗、中文分词、词性标注,去停用词等,为后续评论文本的情感分析做准备。2、特征选择和特征权重。首先,特征选择是情感分类过程中非常重要的一个环节,选取合适的特征有利于提高情感分类的效果。通过对各种特征选择算法的分析,本文以信息增益(IG)算法为基础进行适当地改进,把特征在类内和类外的频度作为特征选择的一个指标加入到信息增益值的计算中;其次,对于特征权重,本文基于TF-IDF算法进行改进,同样加入特征在类内和类外的频度进行特征权重的计算。实验表明,改进的特征选择和特征权重算法提高了分类的正确率。最后,将两种改进算法进行组合,完成特征选取和特征权重的工作,并运用在后续的情感分类中。3、多重决策组合分类模型构建。基于三支决策思想提出了一种多重决策组合分类器。采用集成学习的思想,将单分类器进行适当组合。使用支持向量机分类器对文本集进行第一次三支决策,对于产生的第边界域Ⅰ使用k NN算法进行第二次三支决策,对于边界域Ⅱ使用朴素贝叶斯算法进行第三次三支决策,对于边界域Ⅲ由朴素贝叶斯分类器,k NN和支持向量机分类器加权投票决定。实验表明新的分类模型有助于提高评论文本情感分类的正确率,具有一定的优势。
其他文献
<正>选修班组建:102名学生自愿报名组成,来自本校高一年级的四个班。一、案例内容概述1、教学目标:初步了解孟子其人及《孟子》的基本思想,研讨孟子"浩然之气"、"仁义思想"等
会议
糖尿病痛性神经病变(PDN)是一种临床常见以疼痛为主要特征的周围神经病变,患者可出现剧烈的肢体疼痛、伴睡眠障碍及抑郁,同时易发生足部溃疡,甚至导致截肢,严重影响患者的生
骨内脂肪瘤为良性骨肿瘤,一般预后好,无复发、恶变的可能。若术后复发,多考虑为首次手术肿瘤刮除不彻底,所以笔者认为骨内脂肪瘤手术刮除要彻底,并且要加强术后随访。
量子色动力学(quantum chromodynamics,简称QCD)预言,在温度极高、密度极大的环境下,有可能发生由强子物质到解禁闭的夸克胶子等离子体(Quark Gluon Plasma,简称QGP)的相变。QGP新
目的:观察糙叶败酱大孔吸附树脂提取物(PsBe)对Sarcoma 180(S180)荷瘤小鼠的抗肿瘤作用。方法:建立S180腹水瘤和实体瘤动物模型,分别给予PsBe 0.5g/kg、1.0g/kg、2.0g/kg治疗
公共卫生监测(public health surveillance)是指“连续、系统地收集有关卫生问题的资料,经过分析、解释后及时反馈和利用信息的过程。最早期的监测主要关注疾病的发生和死亡,特别
本文研究了老年人的特点,分析了老年人产品的现状,提出了老年人用品人性化设计原则,并在老人用品中加入人性化设计理念,设计出具有人性化特色的老年人用品。 This paper stu
随着GPRS、CDMA1X、蓝牙、WLAN等无线技术的迅猛发展,以及移动终端设备的逐渐普及,移动生活、移动办公逐渐由概念转为现实,信息数据触手可及。设计并开发了基于Android平台的移
最近几年,RFID技术的应用进入了飞速发展阶段,市场规模和增长率都有了前所未有的发展,如图1的数据所示。零售业是当今最大的一个行业,也是最合适并能获得最大收益的RFID应用领域
目的:对苏木的种子进行化学成分研究。方法:采用各种柱层析方法, 从苏木种子分离得到化合物, 并通过波谱方法确定其化学结构。此外, 运用 MTT 分析法测定了这些化合物对 SF-2