论文部分内容阅读
摘 要 本文通过数据挖掘和模型的建立,以及对旅游行业‘基本面’的深入研究,从而合理地筛选出了相关性较强的影响因素,并对旅游行业未来的发展趋势和投资风险进行了预测。根据对因素的多重分析,制定出一套完整的风控预警机制,并能够在疫情出现后及时地帮助行业作出相应调整。结合模型分析以及我国目前疫情走势,给出了旅游行业发展的新业态建议,并解答旅游从业人员的困惑。
关键词 Logistic回归模型 特征检验 灰色预测模型 内插法 数据挖掘 SPSS
中图分类号:C37 文献标识码:A 文章编号:1007-0745(2020)02-0045-09
随着全球经济的飞跃性增长,旅游行业的发展逐步呈现指数型上升趋势。对于我国来讲,无论是经济、文化,甚至环境都与旅游行业的发展密切相关。在经济方面:旅游行业的直接作用是换取外汇(出口贸易)和回笼货币(稳定市场经济);间接带动了国民经济的发展:①促进了交通运输业的发展;②促进了建筑业的发展;③促进了工商业、农副产品、手工业等行业的发展。在文化方面:有助于文明传播。消极影响是指由于越来越多国际游客的到来,他们会将他们的生活方式带到旅游地,其中不仅有文明的,健康的,值得学习的东西,也会有一些消极的思想和落后的生活方式。在自然环境方面:旅游行业的发展促进自然环境的美化和保护,但也加速了自然环境的污染和破坏。因此对于旅游行业的发展我们需要合理的进行预测,在破坏力度最低的情况下,及时的作出调整,使得旅游行业发展更为迅速,国家经济效益得到更大的提升[1]。
通过翻阅资料我们发现,旅游行业在面对旅游危机方面主要有以下测策略:(1)制定较为完备的危机应对策略;(2)旅行社成立应对危机的管理机构、建立起危机预警系统;(3)激活旅游业,重塑旅游形象;(4)构建旅游服务网络系统;(5)改善旅行社经营的模式。
对于目前国情结合2003年的非典对旅游行业造成了极大的影响,分析2003年的非典的旅游行业研究方法:(1)旅游危机对旅行社的深层剖析;(2)旅行社危机管理的抽样调查;(3)我国旅行社行业经营体制分析;(4)我国旅行社经营管理上存在的主要问题;(5)旅行社应对旅游危机的策略;(6)制定较为完备的危机管理制度;(7)成立旅行社危机管理机构,建立危机预警系统;(8)积极激活旅游市场,重塑旅游形象;(9)构建旅游服务网络系统;(10)调整旅行社经营目标模式[2]。
针对今年的疫情,我们将对以下三个问题进行分析和解决。
问题一:建立数学模型分析旅游行业的“基本面”,解答旅游从业人员的困惑。预测未来三年国内旅游市场的发展情况。
问题二:建立量化模型分析未来三年旅游行业投资的潜在风险和预期收益,给出旅游行业发展的新业态建议[3]。
问题三:今年的疫情爆发并非个例,也许每隔若干年就会有大规模的疫情出现,我们将为旅游行业构建一套比较实用的风控预警机制,并能够在疫情出现后及时帮助行业做出调整。
对于问题一,运用灰色预测模型,结合excel和spss软件,对数据进行挖掘,得出旅游行业未来三年的发展趋势。
对于问题二,首先对各输入量和目标变量进行了特征检验,将次要因素过滤后,并以同比增长的转换率作为新的目标,利用Logistic回归模型分析预测出旅游行业的发展投资风险。后将整合的数据带入时间序列模型,利用指数平滑预测的方法对未来几年的预期收益进行了预测[4]。
对于问题三,先对数据进行筛选,然后用spss的生存分析讨论变量之间的相关性,根据显著性看各变量能否由现有数据推广到整体,之后绘出一系列的散点图,可以直观的看出各变量之间的相关性,根据散点图分析可以得到变量之间的影响关系和对旅游行业的影响。
1 行业概况
1.1 旅游业的概念
旅游業是借助旅游资源和设施,专门接待游客,为游客提供游览、餐饮、住宿和文化娱乐等服务的行业。旅游业在国际上被称为旅游产业,即旅游业在性质上是一个经济性产业,是一个国家或地区国民经济的组成部分[5]。
1.2 旅游业的构成
旅游业的构成有几种说法。一是从各行各业中为游客提供服务的角度分析,人们认为,旅游业主要由三大部分组成,即旅行社业、交通客运业和以饭店为主体的住宿行业。它们是旅游行业的三大支柱。二是从旅游市场的营销角度分析,旅游业主要由五大部分构成,即除了上面的三大支柱外,还包括景点为代表的游览场地经营部门和各级旅游管理部门[6]。
1.3 旅游业的行业特点
(1)旅游业具有综合性。旅游业是集游、住、吃、购、娱等服务为一体的综合性大产业。
(2)旅游业具有经济性。发展旅游业最为根本的目的就是为了取得经济效益。
(3)旅游业具有服务性。旅游业为游客提供的服务是一种能够用于交易的特殊商品。
(4)旅游业具有带动性。旅游业能带动其他直接或间接为旅游者提供服务的产业发展。
(5)旅游业具有外向性。旅游业是一种跨地区和跨国界的人际交往活动。
(6)旅游业具有季节性。一个国家或地区的旅游业的季节性和该国或地区的旅游活动密切相关,而且是旅游活动是由季节所决定的[7]。
2 理论概述
2.1 问题一理论概述
对于问题一,使用了灰色预测模型。灰色预测模型:如果一个系统具有层次、结构关系的模糊性,动态变化的随机性,指标数据的不完备或不确定性,则称这些特性为灰色性。具备灰色性的系统被称为灰色系统。由灰色系统建立的数学模型称为灰色模型,它能了解系统内部事物连续变化的过程[8]。
灰色理论能够建立微分方程预测模型,其主要依据为:
(1)灰色理论将随机量当作是在一定范围内变化的灰色量,将随机过程当作是在一定范围,一定时区内变化的灰色过程。 (2)灰色系统将无规律的历史数据列经累加后,使其变为具有指数增长规律的上升形状数列,由于一阶微分方程解的形式是指数增长形式,所以可对生成后数列建立微分方程模型。所以灰色模型实际上是生成数列所建模型。
(3)灰色理论通过灰数的不同生成方式、数据的不同取舍、不同级别的残差GM模型来调整、修正、提高精度。
(4)对高阶系统建模,灰色理论是通过GM(1,n)模型群解决的。GM模型群即一阶微分方程组的灰色模型。
(5)GM模型所得数据必须经过逆生长,即累减生成做还原后才能应用[9]。
2.2 问题二理论概述
2.2.1 风险评估的方法概述
对于测量风险的模型有很多,比如:二元(多元)Logistic逻辑回归模型、神经网络模型等。其中“神经网络模型”是由大量的、简单的处理单元(通常称为神经元),其大量的、广泛的互相连接形成了复杂的网络系统。它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。通常应用在需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。对于问题二主要运用了Logistic回归模型加上数据特征分析方法,其运用如下文所示。
2.2.2 Logistic回归方法
Logistic回归函数又称为逻辑回归函数(也称为增长函数)。Logistic回归与线性回归有许多的相似之处,最大的区别是它们因变量的类型不同。Logistic的因变量满足二项分布,而对于线性回归来说,其自变量和因变量都会连续性变量[10]。
2.2.3 Logistic回归的原理
总结:Logistic回归是一种广泛的使用算法,如果在进行回归运算之前先进行特征值的筛选,这样会使得回归效果更好。因此在下面模型当中,对数据首先便进行了筛选处理。其另一个优点是非常容易实现,且训练起来很高效,可作为数据基准,可以用来衡量其它更复杂的算法性能。
其缺点是只能用来解决非线性问题,因为它的决策面是线性的,所以对于线性问题需要进行转换[11]。
2.3 问题三理论概述
2.3.1 生存分析的定义
生存分析是对生存时间进行分析的统计技术的总称,生存时间是从某一时间点起到所关心事件发生所经历的时间。生存分析是一种既考虑结局又同时考虑结局出现时间的统计分析方法。生存分析的目的就是描绘生存时间,生存时间多数情况下是连续型数据,但也存在生存时间为离散型数据的情况[12]。
给定一个实例i,我们用一个三元组来表示,其中Xi表示该实例的特征向量,Ti表示该实例的事件发生时间。
如果该实例发生了我们感兴趣的事件,那么 Ti表示的是事件發生时间点到基准时间点之间的时间,同时 δi= 1。
如果该实例未发生我们感兴趣的事件,那么 Ti表示的是事件发生时间点到观察结束时间点的时间,同时 δi=0。
生存分析的研究目标就是对一个新的实例Xj,来估计它所发生感兴趣事件的时间。
2.3.2 生存分析的基本概念
(1)事件。事件也称为失效事件,指由研究者所规定的生存结局,根据研究目的的不同而不同。定义清楚事件是非常重要的,它直接关系到数据的记录是否准确。事件的定义一定要在数据收集之前完成,而不是没有定义清楚事件就开始收集数据,否则很可能做的是无用功。
(2)生存时间。生存时间是指从某一起点开始到所关心事件发生的时间,按失效事件发生或失访(删失)前最后一次随访时间记录,常用符号t表示。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要[13]。
(3)删失。删失指观察对象终止随访,事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来,不是由于失效事件发生,而是无法继续随访下去。删失分为右删失、左删失和期间删失三种。只知道生存时间大于某一时间点,这种删失称为右删失;只知道生存时间小于某一时点的删失称为左删失;只知道生存时间在某一段时间之内的删失称为区间删失,右删失的情况最为常见。虽然删失使得生存时间无法准确计算,但在生存分析时还是应该将其考虑在内,因为删失数据会影响到最终的生存率结果。出现删失的原因有:①中途失访,包括拒绝访问、失去联系或中途退出实验、死于其他与研究无关的原因,如:肺癌患者死于心肌梗死、自杀,或因车祸死亡。终止随访的时间被称为死亡时间。
②随访研究结束时观察的对象仍旧存活,由于不清楚这些观察对象发生失效事件的时间,他们的生存时间数据并不完整,因此其观察值称为截尾值(或删失)。
生存函数又称累积生存率,表达式:S(t)=P(T
关键词 Logistic回归模型 特征检验 灰色预测模型 内插法 数据挖掘 SPSS
中图分类号:C37 文献标识码:A 文章编号:1007-0745(2020)02-0045-09
随着全球经济的飞跃性增长,旅游行业的发展逐步呈现指数型上升趋势。对于我国来讲,无论是经济、文化,甚至环境都与旅游行业的发展密切相关。在经济方面:旅游行业的直接作用是换取外汇(出口贸易)和回笼货币(稳定市场经济);间接带动了国民经济的发展:①促进了交通运输业的发展;②促进了建筑业的发展;③促进了工商业、农副产品、手工业等行业的发展。在文化方面:有助于文明传播。消极影响是指由于越来越多国际游客的到来,他们会将他们的生活方式带到旅游地,其中不仅有文明的,健康的,值得学习的东西,也会有一些消极的思想和落后的生活方式。在自然环境方面:旅游行业的发展促进自然环境的美化和保护,但也加速了自然环境的污染和破坏。因此对于旅游行业的发展我们需要合理的进行预测,在破坏力度最低的情况下,及时的作出调整,使得旅游行业发展更为迅速,国家经济效益得到更大的提升[1]。
通过翻阅资料我们发现,旅游行业在面对旅游危机方面主要有以下测策略:(1)制定较为完备的危机应对策略;(2)旅行社成立应对危机的管理机构、建立起危机预警系统;(3)激活旅游业,重塑旅游形象;(4)构建旅游服务网络系统;(5)改善旅行社经营的模式。
对于目前国情结合2003年的非典对旅游行业造成了极大的影响,分析2003年的非典的旅游行业研究方法:(1)旅游危机对旅行社的深层剖析;(2)旅行社危机管理的抽样调查;(3)我国旅行社行业经营体制分析;(4)我国旅行社经营管理上存在的主要问题;(5)旅行社应对旅游危机的策略;(6)制定较为完备的危机管理制度;(7)成立旅行社危机管理机构,建立危机预警系统;(8)积极激活旅游市场,重塑旅游形象;(9)构建旅游服务网络系统;(10)调整旅行社经营目标模式[2]。
针对今年的疫情,我们将对以下三个问题进行分析和解决。
问题一:建立数学模型分析旅游行业的“基本面”,解答旅游从业人员的困惑。预测未来三年国内旅游市场的发展情况。
问题二:建立量化模型分析未来三年旅游行业投资的潜在风险和预期收益,给出旅游行业发展的新业态建议[3]。
问题三:今年的疫情爆发并非个例,也许每隔若干年就会有大规模的疫情出现,我们将为旅游行业构建一套比较实用的风控预警机制,并能够在疫情出现后及时帮助行业做出调整。
对于问题一,运用灰色预测模型,结合excel和spss软件,对数据进行挖掘,得出旅游行业未来三年的发展趋势。
对于问题二,首先对各输入量和目标变量进行了特征检验,将次要因素过滤后,并以同比增长的转换率作为新的目标,利用Logistic回归模型分析预测出旅游行业的发展投资风险。后将整合的数据带入时间序列模型,利用指数平滑预测的方法对未来几年的预期收益进行了预测[4]。
对于问题三,先对数据进行筛选,然后用spss的生存分析讨论变量之间的相关性,根据显著性看各变量能否由现有数据推广到整体,之后绘出一系列的散点图,可以直观的看出各变量之间的相关性,根据散点图分析可以得到变量之间的影响关系和对旅游行业的影响。
1 行业概况
1.1 旅游业的概念
旅游業是借助旅游资源和设施,专门接待游客,为游客提供游览、餐饮、住宿和文化娱乐等服务的行业。旅游业在国际上被称为旅游产业,即旅游业在性质上是一个经济性产业,是一个国家或地区国民经济的组成部分[5]。
1.2 旅游业的构成
旅游业的构成有几种说法。一是从各行各业中为游客提供服务的角度分析,人们认为,旅游业主要由三大部分组成,即旅行社业、交通客运业和以饭店为主体的住宿行业。它们是旅游行业的三大支柱。二是从旅游市场的营销角度分析,旅游业主要由五大部分构成,即除了上面的三大支柱外,还包括景点为代表的游览场地经营部门和各级旅游管理部门[6]。
1.3 旅游业的行业特点
(1)旅游业具有综合性。旅游业是集游、住、吃、购、娱等服务为一体的综合性大产业。
(2)旅游业具有经济性。发展旅游业最为根本的目的就是为了取得经济效益。
(3)旅游业具有服务性。旅游业为游客提供的服务是一种能够用于交易的特殊商品。
(4)旅游业具有带动性。旅游业能带动其他直接或间接为旅游者提供服务的产业发展。
(5)旅游业具有外向性。旅游业是一种跨地区和跨国界的人际交往活动。
(6)旅游业具有季节性。一个国家或地区的旅游业的季节性和该国或地区的旅游活动密切相关,而且是旅游活动是由季节所决定的[7]。
2 理论概述
2.1 问题一理论概述
对于问题一,使用了灰色预测模型。灰色预测模型:如果一个系统具有层次、结构关系的模糊性,动态变化的随机性,指标数据的不完备或不确定性,则称这些特性为灰色性。具备灰色性的系统被称为灰色系统。由灰色系统建立的数学模型称为灰色模型,它能了解系统内部事物连续变化的过程[8]。
灰色理论能够建立微分方程预测模型,其主要依据为:
(1)灰色理论将随机量当作是在一定范围内变化的灰色量,将随机过程当作是在一定范围,一定时区内变化的灰色过程。 (2)灰色系统将无规律的历史数据列经累加后,使其变为具有指数增长规律的上升形状数列,由于一阶微分方程解的形式是指数增长形式,所以可对生成后数列建立微分方程模型。所以灰色模型实际上是生成数列所建模型。
(3)灰色理论通过灰数的不同生成方式、数据的不同取舍、不同级别的残差GM模型来调整、修正、提高精度。
(4)对高阶系统建模,灰色理论是通过GM(1,n)模型群解决的。GM模型群即一阶微分方程组的灰色模型。
(5)GM模型所得数据必须经过逆生长,即累减生成做还原后才能应用[9]。
2.2 问题二理论概述
2.2.1 风险评估的方法概述
对于测量风险的模型有很多,比如:二元(多元)Logistic逻辑回归模型、神经网络模型等。其中“神经网络模型”是由大量的、简单的处理单元(通常称为神经元),其大量的、广泛的互相连接形成了复杂的网络系统。它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。通常应用在需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。对于问题二主要运用了Logistic回归模型加上数据特征分析方法,其运用如下文所示。
2.2.2 Logistic回归方法
Logistic回归函数又称为逻辑回归函数(也称为增长函数)。Logistic回归与线性回归有许多的相似之处,最大的区别是它们因变量的类型不同。Logistic的因变量满足二项分布,而对于线性回归来说,其自变量和因变量都会连续性变量[10]。
2.2.3 Logistic回归的原理
总结:Logistic回归是一种广泛的使用算法,如果在进行回归运算之前先进行特征值的筛选,这样会使得回归效果更好。因此在下面模型当中,对数据首先便进行了筛选处理。其另一个优点是非常容易实现,且训练起来很高效,可作为数据基准,可以用来衡量其它更复杂的算法性能。
其缺点是只能用来解决非线性问题,因为它的决策面是线性的,所以对于线性问题需要进行转换[11]。
2.3 问题三理论概述
2.3.1 生存分析的定义
生存分析是对生存时间进行分析的统计技术的总称,生存时间是从某一时间点起到所关心事件发生所经历的时间。生存分析是一种既考虑结局又同时考虑结局出现时间的统计分析方法。生存分析的目的就是描绘生存时间,生存时间多数情况下是连续型数据,但也存在生存时间为离散型数据的情况[12]。
给定一个实例i,我们用一个三元组来表示,其中Xi表示该实例的特征向量,Ti表示该实例的事件发生时间。
如果该实例发生了我们感兴趣的事件,那么 Ti表示的是事件發生时间点到基准时间点之间的时间,同时 δi= 1。
如果该实例未发生我们感兴趣的事件,那么 Ti表示的是事件发生时间点到观察结束时间点的时间,同时 δi=0。
生存分析的研究目标就是对一个新的实例Xj,来估计它所发生感兴趣事件的时间。
2.3.2 生存分析的基本概念
(1)事件。事件也称为失效事件,指由研究者所规定的生存结局,根据研究目的的不同而不同。定义清楚事件是非常重要的,它直接关系到数据的记录是否准确。事件的定义一定要在数据收集之前完成,而不是没有定义清楚事件就开始收集数据,否则很可能做的是无用功。
(2)生存时间。生存时间是指从某一起点开始到所关心事件发生的时间,按失效事件发生或失访(删失)前最后一次随访时间记录,常用符号t表示。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要[13]。
(3)删失。删失指观察对象终止随访,事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来,不是由于失效事件发生,而是无法继续随访下去。删失分为右删失、左删失和期间删失三种。只知道生存时间大于某一时间点,这种删失称为右删失;只知道生存时间小于某一时点的删失称为左删失;只知道生存时间在某一段时间之内的删失称为区间删失,右删失的情况最为常见。虽然删失使得生存时间无法准确计算,但在生存分析时还是应该将其考虑在内,因为删失数据会影响到最终的生存率结果。出现删失的原因有:①中途失访,包括拒绝访问、失去联系或中途退出实验、死于其他与研究无关的原因,如:肺癌患者死于心肌梗死、自杀,或因车祸死亡。终止随访的时间被称为死亡时间。
②随访研究结束时观察的对象仍旧存活,由于不清楚这些观察对象发生失效事件的时间,他们的生存时间数据并不完整,因此其观察值称为截尾值(或删失)。
生存函数又称累积生存率,表达式:S(t)=P(T