中文商品评论的文本情感分析技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:absyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速进步,使得电子商务网站得以飞速发展,越来越多的人们通过网络平台来获取商品评论信息,并根据评论信息来指导消费。对这些以指数级增长的评论信息,若能对其进行挖掘及相应的分析,辨别出其中的情感倾向,则不仅可了解用户对商品的满意度及意见,而且也可为商家的决策提供参考,进而提高商品质量及服务态度。本文首先介绍了中文文本情感分类流程及相关核心技术,然后分别从商品评论的获取、商品评论情感分析方法两个方面进行了相关分析与研究。其中,对商品评论的情感分析,本文分别采用了基于机器学习的方法及基于情感词典的方法。对评论进行情感分析,首先需要从相应购物平台中获取相应的语料数据,不同商品类别的评论通常集中在某一板块,且网页呈现出高度的结构化。基于此,本文使用了网络爬虫对网页进行实时处理并获取评论信息,从而得到供情感分类用的评论数据。然后,本文分别基于两种不同的思想对评论进行情感分析。在基于情感词典的方法中,构建了一个较为完整的面向商品评论信息的情感词典,其中,基础情感词典采用知网发布的“情感分析用词语集”,而网络情感词典则主要基于已有的不完整的网络词典,通过评论信息来收集并进行标注,以此来扩充该网络情感词典。并通过SO-PMI算法对词语的情感倾向性进行计算,以此对情感词典进行扩充。最后,根据短语结构,对评论信息中的情感特征词进行情感倾向加权求和,从而获得整个评论的情感倾向及强度。在基于机器学习的方法中,构建了贝叶斯分类模型,并提出了一种混合特征提取方法,有利于分类特征的保留,并对冗余特征进行删除,进而提高情感分类效果。最后,从天猫上采集数码、服饰、食品、图书四个类别的评论信息作为实验测试语料,对本文中的两种方法进行了对比实验分析。实验结果表明两种方法均是可行的,而基于机器学习的方法在分类效果上要略优于基于情感词典的方法。
其他文献
根据梁模型端部的四种不同支承条件,将梁模型区分为一般支承梁、弹性支承梁、约束简支梁和约束悬臂梁四种,分别由各自的边界条件和梁弯曲振动模态函数的一般表达式推导出了这四
高等教育发展改革趋势越来越倾向于国际化,即是说当前高校教育改革重点发展战略和目前国际市场经济竞争发展趋势越来越契合,需要在保证高校教务管理工作水准同时,也需要加强
客户集中度对企业研发创新的影响得到了学者们的关注。鉴于供应商与客户的角色差异,本文基于企业的客户角色,通过手工搜集2007~2017年上市公司核心供应商数据,理论分析与实证
国美自20世纪90年代成立以来,三十年间几经沉浮,如今正处于家电零售行业的领军地位。在此期间,国美的金融战略也成为了许多行业及学者争相研究的对象。而近几年来,国美注重结
为了克服粒子群优化算法早熟收敛以及粒子在进化过程中缺乏很好的方向指导的问题,算法中采用了量子技术以及免疫机制来提高粒子群的收敛速度和寻优能力,从而获得了一个新的自
近年来,餐饮外卖行业发展迅速,相关数据分析机构统计显示,2018年,中国外卖用户已经达到3.58亿人,外卖市场规模突破2400亿元大关。与此同时,送餐过程中出现的外包装破损、少餐偷食、
报纸
旅游持续发展行动战略1990年,在加拿大温哥华举行的'90全球持续发展大会旅游组行动策划委员会会议上,与会专家提出了一个旅游持续发展行动战略草案。该草案全文如下:前言'90全球大会是促进
通过对城市中心城区交通拥堵评价指标进行分析,道路通行能力是影响城市交通运行效率的重要因素之一,提高道路通行能力,将有效提高道路运行效率,本文就如何有效利用现有道路资
超临界流体萃取技术依靠超临界流体独特的物理化学性质,具有快速、高效、不使用或少量使用有毒溶剂、自动化程度高等特点。由于它优于传统的索氏提取法和液-液萃取法等,不仅在萃
目的探讨鼠神经生长因子穴位注射配合核心稳定训练治疗脑性瘫痪的临床疗效。方法 200例脑瘫患儿随机分为2组,每组100例。对照组采用传统的神经发育运动疗法;观察组采用鼠神经