B2C网站商品评论挖掘技术的研究

被引量 : 9次 | 上传用户:erpangpang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着B2C市场规模的增大,消费者在互联网上对商品的评论数量也呈爆炸式增长。由于这些商品评论中隐藏许多对商家和消费者有价值的信息,因此准确高效地识别这些信息并加以利用会带来巨大的经济效益和广阔的应用前景,这使得商品评论的挖掘与分析成为近年来研究的热点。本文以大型B2C网站京东商城的手机评论为研究对象,对商品评论文本的情感分类和情感极性分析两方面进行了研究,主要工作如下:使用支持向量机方法和朴素贝叶斯方法对商品评论文本的情感分类进行研究。首先对网上获取的评论进行人工选择获得训练集,然后利用NLPIR分词系统预处理语料,并用TF-IDF方法计算特征词的权重。最后,使用MI、IG、CHI特征选择方法在分类器SVM、NB上进行实验对比分析。实验结果表明,使用CHI特征提取方法,SVM和NB的分类效果能达到80%以上。另外,在同一特征提取方法上,SVM的分类效果要优于NB,正确率可到83%。采用基于邻近原则的“双向迭代法”对商品评论文本进行细粒度情感极性分析。首先利用PMI-IR算法构建情感种子集,然后利用基于邻近原则的“双向迭代法”获取特征词-情感词关联关系对,以此提出了一种情感词典的构建方法,构建了一个基于HowNet的三元组情感词典Tri-HowNet,并且通过实验对比分析了基于HowNet极性词典与基于Tri-HowNet情感词典的两种极性判定方法。实验结果表明,后者在判定多语义情感词极性时表现优于前者。设计并实现了基于SSH框架的评论挖掘系统。该系统主要包括词典维护、评论收集、评论分类、评论情感分析和可视化展示等5个模块。首先,利用开源:Java类库Crawler4j提供的接口,通过post模拟登陆的方法来获取评论。其次,由文本情感分类和情感分析两个方向出发,对商品评论进行研究分析。最后,将结果存入商品的分析库中,并能够以3D柱状图的形式展现,方便用户查询与使用。
其他文献
晚清两浙政治小说是晚清特定时代环境的产物。这些作品既体现着反映时代潮流的浓郁政治色彩,又包涵着丰富的浙江地域精神。其产生的影响包括两个方面的内容。一是明确了小说
“欧曾”合论自宋代产生以来,历经各朝各代,受到不同文学思潮、政治文化、个人审美爱好的影响,呈现出不同的状态。北宋“欧曾”合论较少,至南宋有所增多,推重“欧曾”之文多
目的探讨用豆甾醇替代胆固醇制备绞股蓝总皂苷脂质体的可行性,并获得最佳制备工艺与处方。方法以卵磷脂和豆甾醇为膜材制备不含胆固醇的绞股蓝总皂苷脂质体;脂质体以鱼精蛋白
目的观察甘草汁蒸制远志过程中对远志皂苷B和细叶远志皂苷含有量的动态变化。方法采用HPLC同时测定远志生品及甘草汁蒸制不同时间(4、8、12、16、20、24 h)炮制品中远志皂苷B和
本文主要从生活世界、文化艺术世界、精神世界中探索鲁迅与女性的关系。主要是生活世界中女性对鲁迅的影响,以及艺术文化世界中鲁迅对女性的作用。还有伴随人际互动、时代潮流
原文本《教师成功指南:确保学生学习的十二种方法》主要是关于教育学和心理学方面的书籍。本书论述了教师应该如何备课,如何激发学生的学习动机,如何满足所有学生的不同需求等等一系列问题。教育关系到国家的发展和民族的未来。中国的读者可以从中吸取有利于中国教师成长的建议,对教师职业产生新的认识。本次翻译实践选取了该书的第一至第三章,该部分主要介绍了新教师在初入职场所做的准备,怎样利用教育心理学引导学生学习以及
中国现代文学中的“蛮性”书写是一个值得关注的现象,它基于对人和人性的发现与理解,不仅被赋予了反封建与革命的意义,而且能够带来与以往不同的审美风格,极大地丰富了读者的
热带西太平洋是驱动大气环流和亚洲季风的关键海域,也是ENSO(El Ni?o与南方涛动)发生发展的重要区域。为了研究该海区海-气特征,特别是El Ni?o现象的演变,从20世纪80-90年代
人们说,艺术来源于生活,那么每个时代的文学创作一定会受到所处时代文化氛围的深远影响。在浩瀚的中国古代文学历史长河中,可以说文学与史学一直都存在着紧密的联系。两汉时期的
日本是世界上城市化水平最高的国家之一,东京圈是世界上最大的人口集中地区。“东京一极集中”也被称为“东京问题”,停车场问题就是“东京问题”之一。$$面对公共停车场空间资
报纸