论文部分内容阅读
通过网络爬虫获取网络空间数据以分析和预测物理世界的宏观事件是近年来十分重要的研究方向。本论文面向旅游业需求研究了如何利用谷歌趋势统计的网络搜索信息来预测物理世界的真实游客数量。世界各地的旅游业在迅猛发展中:荷兰的旅游业占国民生产总值的9%,其首都阿姆斯特丹是一个非常美丽的城市,有着郁金香、沟渠、游艇和各种展览馆。有许多著名的画家都生活在阿姆斯特丹,游客可以在这里的画廊里发现许多备受赞誉的杰作。阿姆斯特丹的旅游业对整个荷兰的经济发展贡献很大。因此,准确预测阿姆斯特丹的游客数量具有重要的实际意义。本文的研究思路是利用谷歌趋势信息来预测阿姆斯特丹的旅游业需求。具体的,我们利用Touristjourney对搜索查询词进行拓展和筛选,然后通过GoogleSearch Query利用谷歌趋势Google Trends返回的与查询词相关的搜索统计信息分析真实游客数量的相关性并训练得到隐马尔科夫模型;在测试阶段,将搜索参数归集到Google Trends中,获得查询词列表和对应的Google Trends信息,进而通过训练的隐马尔科夫模型进行游客数量预测。这项研究发现,谷歌趋势提供的信息对于确定阿姆斯特丹的旅行者数量是有价值的,通过使用合适的关键词和对应的谷歌趋势信息,本文所训练的隐马尔可夫模型可以较好地预测CBS Statline(2018)中的旅游者数量。在使用本文所提出的模型时,研究人员需要利用与阿姆斯特丹旅游业相关的搜索查询(关键词),利用谷歌趋势编程接口(API)提取相应搜索统计信息,进而应用我们提出的隐马尔可夫模型,预测阿姆斯特丹旅行者未来一个月的数量。以下个月到达阿姆斯特丹的游客为目标,通过google趋势信息索引中的日期、游客数量、区域三个数据参数进行预测,得出的结果为阿姆斯特丹游客数量。从2016年5月29日到2018年12月31日,共有来自五个国家(英国、德国、法国、比利时、瑞典)的265307名搜索者,使用了六个预测性搜索查询(分别为:“阿姆斯特丹、阿姆斯特丹酒店、访问阿姆斯特丹、旅行阿姆斯特丹、城市之旅阿姆斯特丹、假日阿姆斯特丹”)。利用隐马尔可夫模型对阿姆斯特丹的旅游人数进行了训练和测试。由于HMM的性能可以通过覆盖范围的参数来调整,因此我们在1.0和0.1之间设置了3个值来评估HMM,较小的CB值意味着HMM对预测输出的限制更大,从而导致较小的错误率。与现有的两种方法,即向量自回归(VAR)和人工神经网络(ANN)相比,我们所提出的HMM方法获得了最佳结果。使用谷歌查询趋势实时预测旅游数据的优势在于:首先,查询趋势可以使用最新信息,直到预测计算的前一天,在这种情况下,相对于官方统计发布的滞后数据,具有很高的实时性;其次,查询趋势信息覆盖面更完整,相比传统统计信息聚焦某个局部,查询趋势信息可以从多个角度进行辅助分析。我们对CBS上阿姆斯特丹游客的真实数据进行的实验表明,本文所提出的基于谷歌查询趋势的隐马尔科夫HMM方法不仅优于传统方法,而且为旅游预测提供了更多的可控性。