基于网络搜索数据和降噪处理的旅游客流量预测研究

来源 :东北财经大学 | 被引量 : 1次 | 上传用户:wjdy110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,旅游业发展迅速,是我国国民经济的重要组成部分。产业发展的同时,旅游地区旅客滞留、景区爆满、淡旺季资源配置不合理等问题也不断涌现出来。为了相关部门合理配置旅游资源,促进旅游业健康平稳可持续地发展,对旅游客流量进行有效的短期预测变得尤为重要。但传统的旅游客流量预测通常是采用历史数据建立时间序列模型,其滞后性较强,且完全依赖历史数据。互联网发展时代,网络搜索数据具有发布及时,更新速度快等优点,使用其进行预测时效性更强。本文以三亚市和桂林市作为研究对象,聚焦于百度搜索指数平台,建立了基于网络搜索数据的旅游客流量预测模型。用当月的搜索指数数据对下个月的旅游客流量进行预测。首先,本文通过百度相关推荐功能经过多次迭代得到了关键词。使用爬虫方法爬取了关键词的每日百度搜索指数数据,按月累加得到每个关键词的月搜索量。许多关键词与旅游客流量相关性较弱,不具备较好的预测能力,本文基于动态时间规整方法筛选出了核心关键词。将同一属性的核心关键词进行加总合成为一个搜索指标,合成的搜索指标即为用来预测的变量。相较于以往研究中使用的皮尔森系数方法,动态时间规整方法能够更好地兼容异常点,对时间轴上的变形进行有效处理,不易造成关键词的漏选。鉴于网络搜索数据中有噪声的存在,本文引入了经验模态分解方法进行降噪处理。与合成为一个指标进行统一降噪处理不同,本文在得到不同属性的搜索指标基础上,使用经验模态分解方法对每个搜索指标数据分别进行了分解,一定程度上避免了不同搜索指标之间噪声的干扰,提升了预测的精度。其次,考虑到网络搜索数据的非线性特点,本文使用支持向量回归方法对训练集样本进行训练,建立旅游客流量预测模型。支持向量回归方法中的不敏感损失函数、惩罚程度和核函数的宽度这三个主要参数使用网格搜索方法进行了寻优,进一步将测试集用得到的模型进行求解,得到预测值。并引入平均绝对误差,平均绝对百分比误差和均方误差这三个值来评价模型的预测效果。此外,为了使分析结果更具说服力,本文对每个城市都进行了三次训练集和测试集的划分,得到了三次实验结果,并对每次实验结果进行了分析。同时,为了验证降噪处理的支持向量回归模型的科学性和有效性,本文将该模型与线性回归模型、未降噪的支持向量回归模型以及BP神经网络模型进行了对比,并绘制了模型预测结果的对比曲线。对比结果显示,降噪处理后的支持向量模型最优,预测精度最好。本文研究结果表明,搜索行为是游客旅游决策制定的意愿表征,网络搜索行为对经济产业,尤其是旅游产业具有一定的预测作用,这为旅游客流量预测研究提供了新的视角。使用网络搜索数据可以对旅游客流量进行预测,对网络搜索数据进行降噪处理可以提升预测的精度。支持向量回归模型在处理非线性小样本预测问题具有一定的优势。
其他文献
电解锰渣(Electrolytic manganese residue,记为EMR,简称“锰渣”)是电解金属锰生产过程中产生的固体废弃物。据统计,每生产1吨电解MnO_2就伴有7-9t的锰渣产生。锰渣的大量堆积极易造成严重的环境污染,从而限制电解锰行业的良性发展。同时电解锰渣中包含多种有益元素,通过合理手段对其进行再回收,可以使其具备经济效益,并可实现电解锰渣的减量化处理,是电解锰行业可持续发展的
我国集体建设用地流转已经有较长的历史,并且已经形成一定的规模。随着城镇化、工业化进程的不断推进,用地需求不断增加,土地供需矛盾日益突出,“隐形”流转市场普遍存在,农
复合材料在航空、航天和汽车等领域得到了广泛应用,因此,准确的分析裂纹扩展路径和最终的失效模式对于工程实际有着至关重要的作用。传统连续介质理论在解决不连续问题时往往
近年来,随着我国高校体育事业的发展,一些高校高水平篮球队参加的比赛接踵而至。首先不能忽视的就是中国大学生篮球联赛(CUBA)与国外大学生篮球联赛的差距问题;再者,组织这些比赛的属性和目的并非完全具有商业属性。由此可以得出:其一、商业属性不高的比赛想要获得高水准的商业赞助可行性不大;其二、高校高水平运动员的商业价值不高(明星效应不高)难以吸引大的商家关注。所以,高校高水平篮球队要想获得商业赞助,要解
浒苔(Ulva prolifera)具有复杂的生活史和多样的繁殖方式,加上漂浮浒苔利于漂浮的中空管状结构,让浒苔能更好得应对自然界的胁迫,使浒苔成为绿潮优势种之一。目前关于自然界
随着国内卷烟品牌的结构不断变化与提升,对产品包装要求也越来越高,在实际生产中,每天也会出现几十条甚至上百条的缺陷产品,因此条包外观质量就成为制约生产效率与良品率的重要环节。条包拉线偏移在条装类缺陷中占比最高,且依靠人工进行抽检,不能保证优品率,本文开展了条包拉线偏移检测的设计与开发,并进行了应用。本文设计的条包拉线偏移检测主要由两部分组成,过程检测与后置成像检测。过程检测选用了一种LRD5100型
随着物联网、区块链、人工智能、云计算和大数据能等新一代信息技术的进步,把互联网平台作为载体的数字经济开始兴起,互联网平台创造了全新的商业环境。港口供应链平台以新一代信息技术为依托,服务于港口供应链上下游企业,形成了以数据资产为核心的新型服务模式。银行对港口供应链平台进行授信时,需要对平台进行价值评估,以正确引导风险投资决策,平台企业作为数据资产为主导的第四方服务型企业,与传统制造业相比,信息平台企
本文利用指数二分理论和不动点理论研究了时滞微分动力系统的伪旋转周期解的存在唯一性.众所周知,时滞微分动力系统在众多领域有着广泛的应用,因此研究其解的性质等知识将变得极其重要.在本文中,我们将利用指数二分性和不动点理论对有限或无限时滞微分动力系统的伪旋转周期解进行系统的研究.全文共分为六章.第一章首先介绍了时滞微分动力系统的背景,指数二分的定义,及其有界解与指数二分的关系;其次给出了旋转周期函数与伪
鸟类作为地球生态系统中的重要生物指示,需要长期持续不断地监测,传统观测方法采用的是样方法、标记重补法等人工监测方法,这些方法监测结果误差大,难提供准确信息。针对传统观测方法的不足,本文利用语音分离技术将麦克风采集到的鸟群混合语音进行分离,根据分离结果即可估算出鸟类的数量,达到监测效果,这种方法不需要大量的人力物力,可获得更为有效的监测结果。本文主要工作如下:(1)鸟类语音信号混合模型构建以及降噪等
东北地区地形平坦开阔,土地资源十分丰富,存在大面积未开发的盐碱荒地,由于水土资源分布不均,存在工程性缺水问题,为开发盐碱荒地,兴建灌区及泵站工程是解决灌溉问题的重要手段,同时因东北地区冬季寒冷,冻胀问题一直是难以解决的问题。采用抽芯式泵站型式能很好解决设备防冻问题,但同时因水泵出水管抬高,带来了泵站结构高、大的特点,由此结构自重增加,再者软基承载力不足,所以解决结构整体稳定性及地基承载力不足是一个