论文部分内容阅读
随着民航事业的快速发展,越来越多的旅客将航空运输作为远程出行的首选。而网络技术的飞速发展以及电子客票全面推广使用,各大航空公司都已利用各自的网站开始销售电子客票,人们可以从Internet上快速便捷的获取机票价格信息。面对频繁变化的机票价格,人们渴望知道机票的变化规律及何时购买机票最划算。本文基于国内航线机票数据利用数据挖掘的算法建立模型,旨在给旅客提供按出行日期预测的机票价格及购买机票的建议。本文以国内某一航班为研究对象,从数据挖掘的角度进行探究。主要研究工作如下:一、机票数据采集,通过利用垂直搜索引擎HERTRIX工具获取网站的机票价格,利用HTMLParser工具实现机票价格数据的在线获取;二、简述机票数据分析和预处理过程,将抓取到的数据进行预处理,统一标准化格式,存入数据库,并分析机票各个属性与价格的关系;三、在详细研究KNN、Q学习和加权移动平均时间序列分析算法基本原理的基础上,改进了Q学习和时间序列算法,首先KNN算法用于训练购买决策分类器,给用户一个购买建议;其次通过改进Q学习算法建立机票价格预测模型,运用历史数据不断训练Q矩阵,呈现给用户预测价格;最后运用改进的加权移动平均时间序列分析法建立机票预测模型,该模型分为小于一个星期和大于一个星期两种情况,根据预测时间与当前时间的时间差给用户呈现预测价格;四、主观Bayes算法的集成学习模型,利用Bayes推理技术将三种机票价格预测模型的预测结果进行融合,得到集成的机票预测价格和最终的购买建议。将上述数据获取技术、价格预测技术和集成算法结合,本文设计了机票价格预测原型系统。本文使用已抓取的深圳至北京的航班号为CA1304的9336条航班机票数据,分别用KNN算法、Q学习算法、时间序列算法和主观Bayes集成算法进行预测。通过模拟实验,主观Bayes集成算法很好的实现了节省开支,其效果优于其他三种算法。