论文部分内容阅读
互联网技术、信息技术以及经济的飞速发展,给共享经济提供了良好的发展平台,共享模式遍布生活各个方面,人们的生活也因此发生了日新月异的变化。共享空间模式的出现,给人们的出行住宿提供了多样性的选择。民宿这一新型的共享住宿产品,因其舒适、自由的体验倍受广大出行用户的喜爱。鉴于共享单车从繁荣到衰退的历史,民宿行业应该重视与反思自身的发展状况与存在的问题,奔着可持续发展的目标前行。所以利用文本挖掘技术,分析民宿目前的状况是十分有意义的。目前在线酒店预订网站能够实现线下房源信息在线上展示,方便消费者线上浏览、预订、反馈。因此本文从在线酒店预订网站的民宿评论出发,总结民宿行业的特征评价体系,挖掘用户对民宿特征的情感倾向,为酒店和民宿的经营者提供直观的用户评价信息,从而给他们提供经营参考性价值。以下三部分是本文的主要研究工作:(1)抽取情感评价单元。首先抓取评论数据及进行预处理操作。设计了基于python的爬虫程序用于从携程网站爬取民宿评论。自定义了酒店领域专有名词词典用于jieba分词,促进酒店领域特征被完整的切分。自定义停用词典用于过滤无表示意义的词。使用ltp工具进行词性标注,并去除无意义词性及词语。然后定义情感评价单元为属性特征、情感特征、情感程度特征序列,提出七种词性序列规则用于抽取情感评价单元,考虑特殊的否定句式和肯定句式,补充词性标注为成语的词语作为情感倾向词语。最后使用与频繁特征的词语相似度来过滤错误的情感评价单元。丰富了已有的词性序列规则,并提高了抽取的情感评价单元的正确率。(2)构建民宿特征评价体系。基于已有的酒店特征分类研究,拓展民宿的其他属性特征分类。所以基于抽取的特征集合,分两步对民宿特征进行分类研究。第一步基于已有的酒店特征分类研究,对民宿特征按照酒店特征类别进行预分类。第二步应用层次聚类算法对未归类的民宿特征进行归类,并提出一种基于词典和词向量的综合词语相似度计算方式计算层次聚类分析单个样本间的距离,为聚类分析提供了高质量的输入参数。聚类结果表明本文的综合词语相似度计算方式的有效性。最后对第一步和第二步民宿特征分类结果进行总结、归纳,形成民宿特征评价体系。(3)民宿特征细粒度情感分析。基于频繁特征与特征评价体系,采用情感词典的方式进行细粒度情感值计算,挖掘出用户最关注的的五大民宿特征和情感倾向,民宿类别的情感倾向和整体情况。