论文部分内容阅读
近年来,中国在线旅游市场发展迅速,逐渐成为人们旅行的首选。2017年,中国在线旅游市场的交易规模达到了7384.1亿元,同比增长24.3%,2018年的预测交易规模超过8600亿元。未来十年,在线旅游产业面临巨大的机遇和挑战,改进服务质量、提升用户体验、挖掘用户评论信息等举措将有助于在线旅游市场和文化的健康繁荣发展。本文引入先进的情感分析算法,通过对旅游产品用户评论的自动化分析,提取了大量有意义的信息同时也提出了许多有意义的改进措施,可用于情感排序算法和在线旅游城市指数构建等。 首先,本文通过网页爬取的方式抓取了携程网和去哪儿网超过七万条用户评论数据。通过一系列数据清洗工作,本文建立了中文旅游评论的数据库。进一步,本文邀请中国政法大学十五位同学对中文旅游评论进行三重人工标注,得到了由30180条旅游评论构成的旅游评测数据集。基于该数据集,本文首先提出新词检测算法,改善中文语料的分词效果同时检测用户新词、专有名词、转义词、多词表达等四类词语。然后,通过构建中文旅游领域专属的情感词典及相应分析算法,量化表示了中文旅游评论的情感极性,在一定程度上提升了旅游评论情感分析的效果。本文提出的新词检测算法和情感词典构建算法适用于各种语言、不同领域,并且通过严格参数分析,本文给出了构建领域专属词典的参数取值区间。 与此同时,神经网络技术被广泛应用在各个领域。本文将文本分析领域最先进的卷积神经网络模型和长短期记忆模型引入旅游领域用户评论的分析中。通过分析这两种先进神经网络模型的优势,同时结合上述构建的情感词典,本文提出了情感词典集成的卷积神经网络和长短期记忆模型。模型利用情感填充算法解决评论文本长度变动较大的问题;通过引入情感词典信息,借助强大的神经网络,本文实现了细粒度的情感分析,并在中文旅游评论和英文电影评论数据集上取得较好的效果。进一步,为深度理解评论文本含义,本文还对情感词嵌入和多词义词嵌入进行了研究。 最后,借助前述的情感词典和神经网络算法,本文提出了先进旅游评论情感排序算法,按照评论的情感极性将其进行排序。此外,本文还提出了在线旅游城市指数,将用户体验、消费水平、天气、人气等因素纳入考虑,综合评价城市是否是好的在线旅游目的地。