数据挖掘技术在航班延误时间规律分析与预测中的应用研究
续长青,男,1993年生,硕士,研究方向为交通运输工程,中国民用航空飞行学院,四川省广汉市南昌路四段46号,618307
摘 要
航班的延误问题一直是机场和航空公司运营和管理的一大难题。航班延误的影响因素众多,天气、管制、航空公司自身原因等都会造成航班的延误。本文主要基于天气原因中对航班起降影响最大的能见度方面来研究双流机场的航班延误规律。本文结合双流机场的历史运行数据资料,分析了随着能见度的变化双流机场的航班延误时间的变化规律,提出了延误时间概率的概念,并利用这些规律和概念对未来不同能见度情况下的航班延误时间做出预测。利用实际数据对预测结果的检测表明:预测延误时间与实际延误时间基本吻合,能够较为准确的通过能见度数据来预测双流机场的延误时间。本文提出的方法可以为低能见度情形下的机场或者航空公司的运行调度和恢复提供一个参考。
关键词:航空运输,航班延误,延误时长分布,延误时长预测
Abstract
The flight delays have always been a major problem for airport and airline operations and management.There are many factors influencing flight delays including weather,regulations,and airlines’own reasons.This paper mainly based on the visibility of the weather which is the greatest impact on flight takeoff and landing to study the flight delay law of Shuangliu Airport. Based on the historical operational data of Shuangliu Airport, this paper analyzes the change law of flight delay time of Shuangliu Airport with the change of visibility, proposes the concept of delay time probability, and uses these rules and concepts to predict the delay time of the flight in different visibility situations in the future. The detection of the prediction results by actual data shows that the prediction delay time is basically consistent with the actual delay time, and the visibility data can be used to predict the delay time of the Shuangliu Airport more accurately. The method proposed in this paper can provide a reference for the operation scheduling and recovery of airports or airlines in low visibility situations.
Keywords: Air transport, Flight delay, Delay duration distribution, Delay duration prediction
1 引言
近年来,随着民航业的快速发展,航班延误的情况愈演愈烈,对航空公司、机场和旅客的利益造成了巨大的损失。尽管中国民用航空局出台了一系列的措施,努力的减少航班延误,但是航班延误的现象还是时有发生,这主要是由于造成航班延误的因素众多,且各种因素相互交织的原因。航班延误的因素可以分为:天气原因、航空公司原因、机场管理原因、管制原因等。这些因素中包含着很多不确定性的因素,进而无法通过相应的数学方法进行很好的量化和表达。国内外对此做了大量的研究,Grignon L[1]发表的论文讲解了了因不确定气象条件因素引发的航班延误问题,提出了改进航班延误费用的方法;Mueller[2]等人经过统计分析给出延误时间的变化规律,指出恶劣天气是最大的航班延误干扰因素,且航班的离港延误近似服从于泊松分布,到岗延误近似服从于正态分布;王世杰[3]在理论层面上分析了影响航班正常运行的主要天气因素,包括低能见度、雷雨、风、气温等;2007年 Xu N[4]等人采用随机贝叶斯网络综合检测了引起航班延误的成因,并对这些成因的关联程度建模,分析了每个航段班次的延误对最终的到达延误有多大程度的影响;吕宗平[5]等应用模糊层次分析法提取6 个航班延误预警指标构建航班延误预警指标体系;王时敏[6]基于航空例行天气报告( METAR)内容提取恶劣天气条件下的气象要素,利用决策树建立模型,并利用 Boosting 技术,实现了单一航段受恶劣天气影响的延误预测;Banavar Sridhar[7]等人提出了在恶劣天气状况下,航班离港时间和航线选择优化的模型。这些研究或从定性和处置方式的角度进行研究,或从延误波及的角度出发研究了航班的延误问题。这些论文都表明了直接建立恶劣天气现象与航班延误的函数关系和表述很困难,因而基于历史数据的相关因素统计分析是相对更为可行的方法。本文将选取天气因素中对飞机起降影响最大的能见度的角度,绕开这些复杂的因素在数学上的量化和表达,直接基于历史数据和资料的统计分析,找到不同能见度所对应的的延误时间规律,建立相应的预测机制。
2 数据资料及统计说明
本文研究所使用的能见度数据取自双流机场的日常航空天气报文。日常航空天气报文是机场气象台发布和报告的地面天气定时观测资料,按照相关的规定,例行观测应当每半小时或者每小时进行一次,所以具有一定的时效性。本文主要研究的能见度数据为机场的主导能见度数据,其定义为:观测到的达到或者超过四周一般或者机场地面一般范围所具有的最大能见度的值。主导能见度的值应代表机场及其附近区域的情况[8]。
双流机场的航班延误时间、延误架次等数据来自飞常准大数据网站(https://data.variflight.com/)以及飞常准雷达网站(http://radar.chinaacdm.com/login)。
由于能见度和延误时间等的数据记录时间有限,本文以记录的2016年3月20日到2018年2月01日的运行数据和能见度数据作为进行能见度和延误时间的规律分析的统计范围。相关数据格式如下表1
表1 双流机场机场运行数据资料(部分)
日期 |
日最低能见度 /m |
机场运行统计
|
||||||||
进港计划 |
进港执行 |
进港取消 |
延误时长 |
|
||||||
1h |
1-2h |
2-4h |
4h以上 |
|||||||
20160320 |
2500 |
400 |
395 |
14 |
29 |
34 22 12 17 14 … 9 36 |
10 17 8 16 5 … 7 43 |
4 16 3 3 2 … 1 17 |
||
20160321 |
2700 |
415 |
407 |
30 |
23 |
|||||
20160322 |
5000 |
402 |
403 |
10 |
21 |
|||||
20160323 |
7000 |
415 |
420 |
71 |
35 |
|||||
20160324 |
2300 |
406 |
72 |
82.27 |
431 |
|||||
… |
… |
… |
… |
… |
… |
|||||
20180131 |
4000 |
473 |
469 |
4 |
31 |
|||||
20180201 |
500 |
444 |
471 |
11 |
39 |
3 航班延误概述
通过查阅分析中国民用航空局在2016年发布的《民航航班正常统计办法》 ,该文件对民航航班的航班正常、航班延误时间、延误时间计算公式都做了详细的规定,具体规定见下表2,本文研究所用的延误时间统计均按照该规定来计算。
表2 《民航航班正常统计办法》公布的相关概念
定义 航班正常 |
航班延误时间 |
延误时间计算公式 |
1.到岗正常航班是指不晚于计划到港时间后 15 分钟(含)到港的航班 2.离港正常航班是指在计划离港时间后 15 分钟(含)之前离港的航班。 |
航班实际到港时间晚于计划到港时间 15 分钟(含)之后的时间长度,以分钟为单位。 |
航班延误时间= 航班实际到港时间—(计划到港时 间+15 分钟)。 |
4 能见度与航班延误时间相关性规律分析
4.1双流机场能见度与延误时间相关性分析
本文将双流机场的进离场航班的延误数据与当日的最低能见度数据进行对比,分别比较了进场航总体班延误数、离场航班总体延误数、进场航班分时段延误数、离场航班分时段延误数与能见度,由于能见度的数值与航班延误的飞机数的数值不在一个数量级上,为了更加清楚直观的对这些数据进行比较,本文将能见度的数值统一缩小了100倍。这样既不会影响能见度数据之间的大小倍数关系,也能更加清楚地在一张图上表达出能见度数据与各种延误统计数据之间的关系。
4.1.1进、离港航班总体延误数与能见度对比
图1进港航班总体延误与能见度对比图
图2离港航班总体延误与能见度对比图
在图1与图2中本文将能见度与航班延误的数据按照能见度从小到大的顺序排列,从而可以很直观的得出相应的结论。在图1中进港航班的总体延误数在能见度时出现了更多次数的延误高峰,同时延误架数的最大值也远大于能见度
的情况。同理,在图2中离港航班的总体延误数在能见度
时也出现了更多次数的延误高峰,同时延误架数的最大值也远大于能见度
的情况。
4.1.2进、离港航班分时段延误数与能见度对比
通过飞常准获得的双流机场的航班延误数据可以得到不同日期的航班具体的延误时间,将延误时间分成1h以下、1-2h、2-4h、4h以上四个时间段,本部分将研究不同能见度条件下双流机场航班延误时长的分布规律。
图3进场航班分时段延误数与见度对比图
将双流机场的进场航班延误时间按照四个时间段进行分类统计,同时将时间的顺序按照能见度的大小顺序排列可以得到图3的进场航班分时段延误数与能见度的对比图。从图中我们可以很清楚的观察到如下几个信息:1.在能见度比较低的情况下航班延误的高峰值现象更加聚集,且峰值更高2.在低能见度的情况下更容易出现延误时长4h以上的情况,在图中表现为深蓝色只有在低能见度的情况下才会出现在所有颜色的最顶部3.不同延误时长的航班数量在正常情况下按照延误时长1h的航班量>延误时长1-2h的航班量>延误时长2-4h的航班量>延误时长4h以上的航班量,在图上的表现为浅蓝色、灰色、黄色、深蓝色按照在大部分时间按照从上往下的排列顺序排列。
图4离场航班分时段延误数与能见度对比图
按照相同的方法将双流机场离场航班延误时间按照四个时间段进行分类统计,同时将时间的顺序按照能见度的大小顺序排列可以得到图4的离场航班分时段延误数与能见度的对比图。分析图中的变化趋势我们可以得到和进场航班相似的延误时间规律。这些规律为根据能见度的数值来预测航班延误时间提供了理论的基础。
5 基于能见度数值的航班延误时间预测
5.1 基于KNN算法的预测模型的构建
近年来越来越多的人工智能的是算法被应用于预测当中,取得了传统的方法预想不到的结果,推动了预测领域的发展。KNN算法(K临近算法)是在1967年由Cover等人提出的一种发展速度较快的非参数化监督算法[9-10]。由于KNN算法有对异常值不敏感、预测精度高、不需要数据输入假定等优点且能够避开建立复杂的回归预报方程,这符合本文基于历史数据对延误时间进行预测的要求,所以本文将采用该算法。
算法的具体步骤为:首先定义一个延误时间概率的概念,在历史数据中,每一日的延误时间都分为1h以下、1-2h、2-4h、4h以上四个时间段,每一日在不同的能见度下每个延误时间段对应的延误航班架数都不同。本文将某日不同延误时间段的延误航班架次与当日总延误架次的比定义为航班延误时间概率即:
假设有一组历史航班延误时间概率的个例样本集合定义为D。其中D由i个延误样本组成,而每个延误样本都由能见度X以及一个标志量L构成。在本文中标志量即为不同延误时间的概率。利用KNN算法来进行航班延误时间预测可以描述为如下的数学模型:假设预报日的能见度为,称为预测样本。预测时,首先在历史个例样本集合D中寻找与预测样本
最相近的K(通常为奇数)个邻近,然后找出这K个标志量的集合,即延误时间的集合
。最后在集合L中进行投票,选取最多的标志量
作为预测样本
的预测结果。本文的K个近邻采用欧式距离法来判定。
欧式距离的公式为:
5.2 不同K值选取下的预测准确率分析
由于K值的选取对于KNN算法预测的准确性有很大的影响,太过于小的K值会使得结果不够准确,且更容易受到一些噪声的影响,太过于大的K值又会加剧算法的运算量,容纳入更多的异常数据使得结果不准确,因此确定K值是使用KNN算法中非常重要的一环[11-13]。本文使用了交叉验证的方式对K值的取值进行确定。其确定方法为先在一个子集上做分析,其他的子集用来做后续分析的验证。本文验证了K=3、K=5、K=7三种情况,表4给出了其各自的准确率。
表4 K取不同值时算法交叉检验的准确率(单位:%)
K的取值 |
K=3 |
K=5 |
K=7 |
平均准确率 |
90.3 |
88.5 |
87.8 |
由准确率结果可知K取3、5、7的时候准确率结果相差并不是很大,这主要是由于延误时间概率的决定值只是能见度这单一的指标,所以不能体现出过大的差异。但是当K=3的时候的准确率仍然要好于其他两种情况,因此本文的预测算法的K值取3。
6 结论与展望
本文通过对双流机场的延误时间数据以及能见度数据的分析得到了延误时长和能见度之间的关系,并提出了航班延误时间概率的概念,找到了一种度量延误状况的方法,并利用这个概念和KNN的算法通过能见度来预测双流机场航班的延误状况。本文得到的结论如下:
(1) 双流机场的进离港航班的延误与当日的能见度有密切的关系,且不同的能见度会造成不同的延误时间。
(2) 延误时间概率可以再一定程度上对航班的延误状况进行描述,可以作为预测航班延误的一项指标。
(3) KNN算法可以用来做航班延误时间规律的数据挖掘的处理方法,在K=3的时候预报模型的准确率较高可以达到90.3%。
但是值得注意的是由于本文只研究了能见度作为变量时候的双流机场航班延误的规律,而且采集的数据年份也不够多,所以预报模型的准确率还有较大的提升空间。
参考文献
[1] Lisa Grignon. Analyses of Delay in an Air Traffic System with Weather Uncertainty [D].Washington: University of Washington, December, 2002.
[2] MuellerE,Chatterji G B.Analysis of Aircraft Arrival and Departure Delay Characteristics [A].AIAA's Aircraft Technology,Integration and Operations ( ATIO) Conference[C].Los Angeles,California: Raytheon RTSC,2002:1-9.
[3] 王世杰. 影响飞行安全正点的航空气象要素[J]. 青海科技, 2005, 12(4):56-57.
[4] Ning Xu, Kathryn B Laskey, Chun-hung Chen, et al. Bayesian Network Analysis of Flight Delay [J]. TRB 2007 Annual Meeting. 2007.
[5] 吕宗平,胡欣,丁建立. 航班延误预警指标体系与预警量级构建[J]. 科学技术与工程,2010,40( 1) : 1 - 4
[6] 王时敏. 恶劣天气对航班延误影响的初步量化研究[D]. 南京: 南京航空航天大学,2017.
[7] Mukherjee A,Sridhar B,Grabbe S. Optimizing Flight Departure Delay and Route Selection under En Route Convective Weather [J]. Airspace Utilization, 2011,19( 2) : 63-64
[8] 黄仪方. 航空气象[M].成都: 西南交通大学出版社,2011:55-55.
[9] 熊亚军,廖晓农,李梓铭等.数据挖掘算法在北京地区霾等级预报中的应用.气象,41(1):98-104
[10] Leem H H, Kim D H, Song K W. The Importance of Fog prediction at the Incheon Int'l Airport through flight delay and cancel statistics[J]. 2005, 13(4).
[11] 徐小萍,赵声蓉,曾晓青等.2008.KNN方法在11-3月中国近海测站日最大风速预报中的应用.气象,34(6):67-73.
[12] 曾晓青,邵明轩,王氏攻等.2008.基于交叉验证技术的KNN方法在降水预报中的试验.应用气象学报,19(4):471-478
[13] 朱彪,杨俊,吕伟涛等.2012.基于KNN的地基可见光云图分类方法.应用气象学报,23(6):721-728