论文部分内容阅读
在线旅游的快速发展也预示着海量评论信息的产生,旅游消费者在面对这些海量评论时如何能快速有效的获取自己需求的信息,面对更多的旅游选择,更多的在线旅游产品如何做出对自己最有利的决定。本论文研究目标是去哪儿网上昆明市五星级酒店评论,通过使用数据挖掘算法分析获取评论中关于酒店服务的属性特征词,并提取所用评论中包含该特征词的句子。利用朴素贝叶斯分类方法来分析这些特征句的情感倾向。 本文首先介绍了在线旅游的相关知识。通过对在线旅游的基本概念的介绍,结合在线旅游的发展现状,提出了在线旅游的发展趋势,为进一步的研究奠定基础。随后本论文对文本分类和文本情感分析的相关理论及发展过程作了简要介绍,引出文本分类关键的问题就是特征或特征项的选取。本论文提出基于词性的结合Apriori关联规则和TF-IDF标准的特征选取的优化方法。通过实验,得出特征选取方法的优化对特征词的选取效率较传统方法不仅在特征向量的维数上有明显降低,在计算量和算法的复杂程度上也有很大改善。本文利用优化的特征选取方法,搜集整理了去哪儿网站中昆明市五星级酒店评论,利用朴素贝叶斯分类方法获得评论的极性情感倾向。 本研究可以快速地从海量评论中获得评论者对于某一酒店服务的某一属性特征的正、负面评价,能有效地辅助阅读者的作出决策。并对情感分析作了扩展,相信情感分析在未来能够得到更为广泛的实践应用。