应用机器学习算法构建航班延误预测模型

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:ayczswh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]针对航班延误预测过程中,由于气象、交通状态以及空中交通管控等因素影响航班预测的问题,应用机器学习中的相关算法构建一个延误预测模型,预测某一个特定的航班延误达到的时间点,采用机器学习中的梯度提升决策树算法构建预测模型,用K-fold交叉验证方式评估预测的性能,为航班延误提供参考依据。
  [关键词]机器学习,梯度提升决策树算法,航班延误预测
  中图分类号:F562 文献标识码:A 文章编号:1009-914X(2018)19-0363-02
  1、引言
  随着航空市场的蓬勃发展,国内的各大航空公司都在加大运力的投入,带来了巨大流量的同时,也给空管带来了巨大的压力。航班延误不仅带来旅客自身的体验问题,同时也会产生波及效应。因此解决好航班延误问题,预测准确航班到达的时刻成为航空市场发展的决定性因素。
  相对于国外的航班延误技术的分析技术,Paul等采用空间容量、流量需求以及航班规划相互关联分析,分离出可控因素建立起延误可控模型。但是我国航空起步较晚,目前集中在流量管控方面,动态航班排序和跑道分配策略依赖诸如技术的发展,而其中航班延误的估计扮演着重要角色。
  针对航班到达时间估计或者预测问题,一般是采用基于航迹的预测方法,如基于混合估计理论的航迹预测以及利用航空器动力学与运动学模型的航班预测方法。随着大数据研究的兴起,机器学习就成了航班延误预测的补充,采用对历史数据的学习,分析出航班延误的回归统计模型。
  这些方式成果颇丰,但却是有以下不足:1)无法把空中的交通状态作为一个整体考虑,只考虑单个航空器的影响,没有考虑彼此间的相互影响;2)模型更专注于算法本身,没有考虑的实时的数据状况。因此,本文提出了预测航班延误的时刻作为出发点,建立基于梯度提升决策树回归预测模型,期望提供航班延误的预测的准确性。
  2、相关技术与理论
  2.1 梯度提升决策树(GBDT)
  梯度提升决策树GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。梯度提升决策树有两个概念组成,回归决策树(Regression Decision Tree)和梯度迭代(Gradient Boosting)。
  Regression Decision Tree:决策树方法最早产生于上世纪60-70年代,由JRoss Quinlan提出了ID3算法,此算法的目的在于减少树的深度,但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。
  Gradient Boosting:主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数(lossfunction)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错(可以是方差、偏差均衡的问题,这里假设损失函数越大,模型越容易出错)。如果我们的模型能够让损失函数持续的下降,则说明我们的模型在不停的改进,而最好的方式就是让损失函数在其梯度(Gradient)的方向上下降。
  2.2 K-fold交叉验证
  交叉验证(CV)是用来验证回归模型性能一种统计分析方法,其基本思想是把原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先对训练集使用回归训练,再利用验证集测试得到的模型,以此作为评价回归模型的性能指标。
  K-fold交叉验证是交叉验证的一种,它将数据集均分成N份,将每个子集分别作为一次验证集,其余的N-1份作为训练集,得到N个模型,用N个模型最终验证集的回归模型的性能指标。
  3、研究对象
  本文数据来源于民航航班正常统计系统和空管气象系统,其中航班正常统计系统数据集包括航班的计划起飞时间、航班的实际起飞时间、航班起落机场、航班计划到港时间、航班实际到港时间、飞行器类别、计划撤轮时间,航班延误时长,空管气象系统数据集包括天气情况、云情况、平均风速、风向、最大风速、最小能见度、最大能见度、是否重要天气、天气组数、晴空、重要云、无云、气温、露点温度、气压值、近时天气组数、风切变组数、海面温度、趋势预报组数、云组数、跑道条数、垂直能见度。
  4、研究方法
  4.1 数据预处理
  在数据预处理中,对目标变量进行合并,将航班计划信息(航班的计划起飞时间、计划到港时间、飞行器类别、起落机场)、前序同机场已经起飞的航班信息、前序目的机场已经起飞的航班信息、前序与起落均不相同机场已经起飞的航班信息、前序到达本航班起飞机场到港的航班信息、前序到达本航班目的机场到港的航班信息作为数据特征,把航班的延误时间差作为模型的预测目标。
  1)航班計划信息
  清洗过滤,过滤掉没有计划到港时间或者起落机场的航班数据,保证数据的关键因素不丢失。
  合并数据,没有计划离港时间,采用航班的计划撤轮时间作为航班航班的起飞时间代替;航班实际离港时间,按照实际撤轮时间、申请推出时间以及松刹车时间优先顺序获取不为空的时间;实际到港时间,按照实际上轮时间、滑行入位时间以及进港航班入位刹车时间优先顺序获取不为空的时间点。补全数据,在航班实际离港时间若是获取不到的情况下,采用-1000作为补全值;航班实际到港时间若是获取不到的情况下,采用-1000作为补全值,减少0的歧义性。数据映射处理,把计划离港时间、实际到港时间、起飞的年月日以及星期几、是否是首飞以及前序航班进行数据映射。
其他文献
[摘 要]煤炭是经济社会发展和人们生活中的重要能源资源。然而,在煤矿开采过程中,往往会受到各种因素的影响,导致煤炭资源受损和贫化情况的发生,降低煤矿采矿贫化率,对于增加煤矿产量,延长矿区使用寿命,减少环境污染,提高采矿的综合效益有非常重要的现实意义。基于此,本文主要对降低采矿贫化率的技术管理策略进行分析探讨。  [关键词]采矿贫化率;降低;技术管理策略  中图分类号:TD80 文献标识码:B 文章
期刊
[摘 要]目前,随着我国社会经济的不断发展,有线电视在人们的日常生活中扮演着非常重要的角度,是人们对重要信息资源获取的有效途径。但是在互联网技术不断发展的背景下,人们获取信息的渠道也在不断的增加,这就给广电行业的发展带来了巨大的压力,广播电视行业为了可以在激烈的市场竞争中获得更加长远的发展,也进一步加强了对广电网络改造的研究力度,在着其中EPON与EOC技术起到了非常重要的作用。本文主要针对EPO
期刊
[摘 要]微囊藻毒素(MCs)是一类由蓝藻水华产生的一类具有环状结构和间隔双键的七肽单环肝毒素。其具有毒性大、分布广、结构稳定,是危害人体健康的重要生物毒素之一。本文主要对微囊藻毒素的来源、分布、化学结构、毒性、毒理效应、分离检测及脱除技术等进行综述。  中图分类号:X52 文献标识码:A 文章编号:1009-914X(2018)19-0350-02  随着我国经济的快速发展,工业废水、生活污水的
期刊
[摘 要]塌方作为矿山企业生产经营中地质灾害的一种常见类型,目前已经发展出了多种多样的处理塌方的方法,每种处理方法都有各自优缺点,其中管棚法是应用较为成熟且普遍的处理方法,普通管棚法在面对极破碎岩体及顶帮存在空区时仍不能完全满足生产需要。本文主要针对极破碎地段塌方且顶帮存在空区而不允许绕道时的处理措施进行探讨,通过对普通管棚法进行优化并结合注、喷浆技术联合支护使工程顺利通过塌方区域。  [关键词]
期刊
[摘 要]近些年来,随着建筑钢结构在工业建筑和公共建筑中的广泛应用,建筑钢结构的新技术、新工艺和新材料不断推陈出新,本文钢结构在工业建筑中的应用进行了分析。  [关键词]钢结构;工业建筑;应用  中图分类号:TU391 文献标识码:A 文章编号:1009-914X(2018)19-0358-01  引言  钢结构由于其特有的架构使得同样的建筑面积,钢结构可以增大住宅的空间使用面积并且还减少了建筑垃
期刊
[摘 要]某型VHF电台功率自动调试软件,是通过计算机终端软件分别控制功率计和电台,从功率计读取电台在相应频率的输出功率,并通过一定的算法计算出功率参数返回给电台,以此方法使电台的输出功率逐渐逼近指标所规定的范围,形成电台的闭环功率调试设置,实现了软件对电台功率调试的全自动化和智能化。  [关键词]功率自动调试 VHF电台 逐渐逼近  中图分类号:U437 文献标识码:A 文章编号:1009-91
期刊
[摘 要]近年来,随着我国的煤矿开采深度的不断增加,深井煤巷支护问题突显,集中体现在巷道支护强度不够,受地压影响,巷道支护变形严重,严重威胁到煤矿的安全高效生产。同时需要对其进行反复维护,耗费大量的人力、物力和财力,造成支护成本的不断增加。为了提高掘进速度、降低工人劳动强度高、减少支护成本,研究决定优化某某运输巷的锚杆锚索支护设计方案,以确保生产过程中巷道的安全使用。  [关键词]锚网索支护;煤港
期刊
[摘 要]社会进步促使更多高新科学技术的发展,这些新技术被广泛使用在各个行业中,而自动化技术就是最近几年最主流的一项技术。生产行业促使机械制造业的发展,将自动化技术使用在机械设计中,其能够有效降低生产成本,进而提升相关企业生产效率。本文就对机械设计中自动化存在的作用进行分析,进而详细阐述自动化设计在机械设计发展中的具体应用。  [关键词]自动化设计;机械设计;应用  中圖分类号:TH122;TP2
期刊
[摘 要]水利工程作为国家重要的基础设施工程,在实际的建设过程中,会受到各种因素的影响。如何通过施工技术水平上的提升,为树立工程项目质量提供更全面的保障,对于项目管理而言,具有重要的理论与现实意义。水利项目施工技术需要通过科学的管理,严格规范施工程序,加强理论与实践研究,结合国外先进施工经验与自主创新,才能有效提升技术水平。  [关键词]水利工程;施工技术;有效措施  中图分类号:TV 文献标识码
期刊
[摘 要]叶面肥喷施用为农作物补充营六百和改善不良生长状态的方式,广泛应用农业生产中。笔者从当地生产上存在叶面肥喷施误区谈起,讲述其合理的应用技术。  [关键词]叶面肥;误区;合理  中图分类号:U417 文献标识码:A 文章编号:1009-914X(2018)19-0361-01  叶面施肥也叫叶面喷肥,是将含有各种营养成分的有机或无机营养液,按一定的剂量和浓度,喷施在植物的叶面上,起到直接或间
期刊