论文部分内容阅读
地理位置与交通条件是旅游的重要先决条件,然而高峰期突然蜂拥而至的客流往往令身陷其中的游客多有抱怨和排斥,景区管理部门亦力有不逮,因此,如何及时预警、调度和配置有限的旅游资源便成为大众和旅游管理部门关注的热点话题。解决这一问题最直接的方法是进行客流量预测,然而目前的客流量统计主要来源于对旅行社、景区及其周边酒店等机构部门的事后统计和推断,这类数据需要层层汇总上报审批,发布相对滞后,并且常以月度或季度为频率,数据粒度过大,不能及时准确地预测出客流量。随着互联网和线上旅游服务的快速发展和成熟,人们获取信息的方式正在由电视、报纸、口头传播等传统渠道转向网络等信息化渠道,海量数据在不断地生成和更新,但是这些数据体量庞大、信息分散,对于信息需求者而言仿佛大海捞针,搜索引擎凭借查询技术对信息进行检索和处理、而后呈现给用户,它的诞生使得人们可以以极低的成本、在极短的时间内获取信息。网络搜索数据.记录了互联网用户的需求与偏好,数据本身是前置的、实时的,而且是直接对用户搜索行为痕迹的记录,数据质量也不依赖于被调查一方的动机和配合程度。基于此,网络搜索数据作为反映大众行为的高质量信息源,对于社会经济问题的研究有重要的辅助价值。以往对于旅游客流量预测的研究,较少利用网络搜索数据,或者是将网络搜索数据作为变量引入传统时间序列模型或计量经济模型,这些研究普遍存在过分依赖客流量历史数据的问题,未考虑节假日及特殊事件对客流量的短期冲击,因此很难在客流量激增前进行及时准确的预测预警。本文以古丝绸之路的起点西安为例,基于用户的旅游信息搜索行为,构造了区域旅游指数,论证其与实际客流量之间的理论和数据关联,在考虑节假日效应的及基础上,探讨其微观动态特征和预测能力。结论是区域旅游指数可以用来反映客流量的变动,用加入节假日效应的Prophet模型预测效果最优。全文主要包括以下几方面工作:(1)论述了旅游消费者的决策过程,通过消费者行为模型和经济学上的信息搜寻理论,构建了网络搜索数据与实际客流量之间的理论框架,认为网络搜索量与实际旅游客流量存在正相关关系;(2)借助于百度搜索引擎提供的热词搜索量,通过直接取词法和范围取词法设置初始关键词和拓展关键词,筛选出西安旅游相关的热门搜索词,用爬虫手段爬取其搜索量;(3)计算规格化后的关键词搜索量与实际客流量的错位相关系数,选择了12个最终关键词,将其搜索量按照相关性强弱加权求和,构造出区域旅游指数;(4)对日度区域旅游指数进行了统计特征描述,通过定义“旅游关注期”指标,讨论其节假日特征及前兆效应;(5)创新性地使用HEGY季节协整性检验验证了区域旅游指数与实际客流量之间的协整关系,二者有相同的季节效应,具有同步性和一致性。又用半参数混合模型估计了季节旅游指数,表明与经过X12季节调整的客流量序列具有趋势相合性,从而验证了区域旅游指数的预测能力;(6)使用Facebook开源的Prophet预测模型,对日度区域旅游指数序列进行预测,这一模型的核心是用最优化迭代算法寻找最大后验估计,与传统时间序列模型相比更具灵活性和准确性。进一步引入节假日效应,显著地降低了拟合与预测误差(误差下降近40%)。同时,对区域旅游指数进行成分分解,分析其趋势成分、周效应、年度效应和节假日效应;(7)用经典的SARIMA模型以及经EMD分解后的ARIMA模型分别对区域旅游指数进行预测,先分解后预测可以显著提高预测精度;(8)为了提高文章分析的可信度,本文进行了关于旅游行为的问卷调查,收回有效问卷200份,问题涉及被调查者人口统计特征、旅游信息搜索行为和旅游行为偏好,其结论在关键词选取、前兆效应分析处有部分借鉴。本文的不足之处有:(1)在研究中没有考虑部分信息搜索行为可能不会带来实际旅游活动,在今后的研究中应对网络搜索数据的有效性进行甄别、过滤掉无关信息;(2)对于网络搜索数据前兆效应的具体特征没有进行深入分析,可以考虑将PC端和移动端的网络搜索数据区分开来研究。