论文部分内容阅读
由Web 1.0到Web 2.0,互联网所关注的焦点已经由内容开始向用户转移,越来越多的人习惯于在互联网发表自己的观点,互联网已然成为了一个便捷的信息交流平台,互联网的高度包容性与便利性给了我们能够在互联网上自由交流的机会,由此我们可以说我们所处的21世纪是一个交流的时代,UGC文本已然成为我们日常在互联网上传播信息的工具,而这一些UGC文本也往往带有重要的个人情感,带有一定的研究价值。互联网背景下,电子商务的崛起带动了我国在线旅游业的快速发展,在做旅行计划的时候,越来越多的旅行者习惯于从网络上了解目的地的有关信息,旅行结束后也乐于在网络上分享自己的旅行经验与感受。其中,像“蚂蜂窝”之类的UGC在线旅游网站开始受到流行,这些网站的UGC内容对旅行者的决策起着重要的作用。随着大数据概念的不断深入与普及,近年来这种价值的重要性变得更加明显。在线旅游电子商务成功的关键在于:高效地获取在线旅游评价信息,智能化地分析旅行者的评价与建议,从而改善旅游产品和服务的品质。在线旅游评论数量的急速增长的同时,评论信息的内容也越来越杂乱,如何从海量的在线旅游评论中高效且准确地获取有用的信息是研究的一大难题,而这恰恰也吸引了众多研究者进行学习和研究。评论挖掘主要包含情感倾向分析、特征挖掘、主观内容识别等三方面。其中情感倾向分析是指通过一定的技术手段对海量的庞杂的评论文本进行情感判断以获取有用的信息。如今,国外关于在线英文旅行评论文本的情感研究已经取得了一定的成果。中国拥有全世界数量最多的网民,作为旅游市场最重要的客源地,相关的在线中文评论文本已经成为研究中非常重要的部分,然而到目前为止面向中文UGC文本的情感分析技术仍未成熟,还处于发展阶段。做为世界上拥有最大旅游市场,且具有巨大旅游潜力的国家,我国旅行者的购买偏好以及旅行者的情感特征的研究成为了学术界的研究焦点。然而,目前关于我国在线旅游的研究的仍仅限于用户满意度和细分市场,对研究而言,时效性和话题覆盖度都不足。因此,本文采用网络旷工(SoukeyMiner)爬虫软件来从国内热门的在线旅游网站上抓取在线旅游评论文本,抓取的在线旅游评论文本经过清洗以及预处理之后可以作为本文的实验预料,一部分存入训练集,另外一部分存入测试集。基于情感分析理论,本文利用训练集来完善在线旅游领域情感词典以及旅游复合新词发现,从而构建在线旅游文本情感分类模型对测试集中的实验语料进行情感分类,进而对在线旅行者的情感进行分析。