基于文本挖掘的酒店在线评论研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:dama5011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着中国移动互联网的普及以及移动手机端的广泛应用,电子商务快速发展,人们越来越习惯在网络上进行消费,外出住宿大部分都会选择网上订购酒店,并且在进行消费之后会将此次消费的感受分享到网络上,由此产生大量的文本评论,在这些文本评论数据中蕴含了丰富的信息,其中一些有价值的信息给商家和消费者都提供了重要的参考。消费者可以通过这些评论来判断是否选购,商家通过这些评论可以进行优化以此来提高消费者的满意度。但是由于数据量十分庞大,人工统计分析的方法存在诸多局限,因此,运用机器学习的方法深入挖掘酒店文本评论中的有价值的信息在当今一个信息爆炸的时代是很有必要的。本文主要通过深入的研究文本数据挖掘和在线评论的相关基础理论,利用LDA主题模型和文本情感分类方法,对携程网站上的华中地区的酒店在线评论进行实证分析,旨在为消费者提供选购意见,为商家改善自身提供参考。首先,对文本评论进行预处理,将文本数据转化为计算机可以直接识别的结构化数据,分词统计词频之后可以得到消费者看重的关键信息:房间、环境、干净、服务,总体上来说消费者对大部分的酒店是比较满意的,但是还存在一些需要改善的方面;其次,利用LDA主题模型提取5个评论主题:酒店整体的环境卫生、服务态度、地理位置优劣、价格和消费者的总体评价,商家和酒店管理者可以从这五个方面的主题来改善相关设施,从而提高消费者的满意度;最后,基于文本情感分类模型中的随机森林分类器和朴素贝叶斯分类器对文本评论中的好评以及差评进行分类,得到随机森林和朴素贝叶斯分类器的精确率分别为95%和87%,说明两种分类方法的分类的效果还是不错的。从召回率和精确率可以看出随机森林分类器的效果比朴素贝叶斯分类器的效果要好,同时证明了机器学习的方法对于情感分类是有效的,可以运用到文本情感分类中。
其他文献
随着互联网技术的迅速发展,社交网络以及电子商务逐渐成为了人们生活中不可或缺的应用。人们在使用这些应用的同时,也留下了大量有价值的用户评论数据。这些评论数据不仅可以
本文从理论的高度,运用科技及社会发展过程中的典型事例,论述了劳动者—科学技术—生产力水平之间的相互交融的辩证关系,阐明了人口的文化科学素质对于生产力水平所具有的决
太钢45 t AOD脱碳过程存在氧气利用率较低,通过与先进钢厂顶枪期冶炼以及气体比例对标,结合实际情况对AOD炉顶枪期冶炼做了分析研究和优化,并在实践中进行运用,取得效果明显
本文认为编辑工作由于其工作效果具有潜隐性,所以具有弹性。而编辑工作的弹性又直接影响着编辑的工作效果。编辑学者化可以转化为编辑业务的优化,从而避免编辑弹性中的不利因
近几年来,电力系统在不断的完善,伴随着人们也就对供电的安全性问题的要求越来越高。虽然高压隔离开关作为电力系统中使用最为广泛的高压电气设备,但是却不太受到重视,因而频发故
基本功训练卡帮助您研究教材.选择效法,辨析概念;培养您解题的技能技巧;提高您教育教学的能力。《基本功训练卡》祝您成为合格的教学教师。在分数意义中为什么说“表示这样的一份
结合压力容器生产的物流转运情况和生产操作情况,对压力容器生产厂房的纵向布置方式和横向布置方式进行对比分析,并对两种布置方式的优缺点和适用条件进行阐述。
在2014年7月,总部设在美国Amerijet国际公司推出了一个似乎不错的主意。这家全货运航空公司在里诺(Reno)和哥伦布(Columbus)设置了航空枢纽,连接公路接驳服务,从里诺可以服务
近年来,高空抛物等社区安全问题不断侵扰人们的生活,给民众的生命安全带来了极大威胁。基于以往文献分析和实践经验,传统的社区安全管理存在管理主体单一、行政化趋势突出、
目的研究肺表面活性物质相关蛋白A、D(pulmonary surfactant associated protein A、D,SP-A、SP-D)在肺结核患者中的表达,探讨2者的相关性。方法采用ELISA方法检测涂阳肺结核50