论文部分内容阅读
随着民航业的高速发展和信息化,民航企业从各个基础业务系统中积累了大量的旅客数据,包括旅客个人信息、查询与订单数据和实际飞行数据等。如何从海量的基础业务数据中挖掘出有价值的知识成为民航领域当前一个重大的课题。预测旅客价值成长性,特别是新旅客的成长性正是其中一项非常有意义的研究议题。如果能够对仅有少量历史出行记录的新旅客准确判断其未来市场价值,将有助于航空公司为其提供个性化的服务来吸引潜在的高价值客户,同时还可以对旅客进行细分,从而制定更丰富的营销策略,降低营销成本。本文将新旅客价值成长性预测问题形式化为分类问题。受限于历史数据的稀少,采用传统分类方法对新旅客成长性的预测效果不如历史数据丰富的老旅客。为了弥补新旅客历史出行记录稀少而导致无法准确预测的缺陷,本文提出了一种基于旅客同行社会网络的组合预测方法。首先根据航空公司旅客信息系统中记录的旅客历史出行记录提取旅客之间的社会关系并构建旅客同行网络,并采用更加合理的权重计算模型来衡量关系的强度。随后分别在旅客个体和旅客关系方面构建了丰富的特征属性进行新旅客成长性的初步预测。最后利用旅客的社会网络结构信息提出了一种有效的组合预测模型,该模型融合了旅客个体和旅客关系的预测结果,提升了整体预测效果。本文在某航空公司的真实数据集上构建了旅客同行社会网络,并根据网络分析的结果进行样本采集和样本分析。通过对比传统分类算法的分类效果,为本文选择了最合适的分类算法分别作为基于个体的分类器和基于关系的分类器。最终,在数据集上设计的多组对比实验既证明了本文的研究意义,其结果也表明本文提出的方法对民航新旅客未来价值成长性的预测是非常有效的,能够有效地弥补新旅客历史数据匮乏的问题。同时该预测方法在两种价值度量模型上均有不同程度的性能提升,证明了本文的方法具有较好的通用性。