面向民航旅客分类的缺失数据填补研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:pingpingkama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
民航旅客服务信息数据系统是民航重要信息管理系统之一,其具有海量丰富与旅客相关的业务数据,具有重要的商业挖掘价值。然而在现实生产环境中,数据在数据系统中进行收集、传输、保存过程中数据值缺失不可避免会发生,其影响着航空公司对旅客进行分类等相关数据挖掘业务,对航空公司造成极大的经济损失。为了提高数据质量,提升航空公司收益,因此研究对旅客缺失数据进行完备性填补的方法具有重要意义。本文首先分析了民航旅客信息系统中旅客数据的特点缺失的原因及对后续民航旅客分类等数据挖掘任务的影响,同时总结国内外专家对此类问题的解决方法。在面向民航旅客流失分类预测和民航旅客价值分类两大分类业务的背景下,首先,提出了基于部分距离的SMOTE算法用于解决缺失数据条件下样本类别不平衡问题。其次,针对生产环境下少数类缺失样本不足,标注成本较高的问题,进而提出一种融合多任务深度学习与主动学习的缺失数据填补模型,在模型训练时对少数类缺失样本进行主动学习标注生成高质量的训练样本,提高模型的鲁棒性,进而提升模型的填补精度和分类精度。最后,考虑到生产大数据环境,引入Spark计算引擎,提出一种基于Spark的主动学习填补框架,使得模型能在大数据环境下对民航旅客缺失数据进行高效填补。相关实验表明,本文提出的方法在数据填补以及分类任务中取得较好的效果,同时具有较大工程实用价值。
其他文献
<正>湖北赤壁,古战场的狼烟散尽,风光依旧旖旎,源远的长江水和悠久的历史魂孕育了众多文人豪杰,曾大兴教授便是其一。其人气质楚狂,酒入豪肠,绣口一吐,便是《词学的星空》大
在全球化的背景下,各国之间的交流日趋频繁,尤其是文化方面的交流。中国古代典籍作为中国优秀传统文化的重要组成部分,不仅是中国上下五千年历史文化的精髓,更充分展示了中国的国家形象,其英译对中国文化“走出去”战略的实施具有重要意义。而这些典籍中含有的大量带有中国特殊文化内涵的文化负载词的翻译,则是衡量译文成功与否的一个不容忽视的因素,需要译者格外重视。本研究以德国功能派翻译理论目的论为理论基础,以许渊冲
近年来,民办高校规模不断扩大、发展势头良好,但相较于公办院校,民办高校大学生存在就业面窄、就业竞争力不强等短板,就业形势不容乐观,甚至成为制约民办高校进一步发展的瓶颈因素,因此解决民办高校大学生就业问题备受社会关注。创业是扩大就业的有效手段,当前受创业意愿的影响,民办高校大学生创业行为受限,自主创业率很低。本文通过对民办高校大学生创业意愿现状及其影响因素进行研究,能够较好地预测和引导大学生的创业行
针对300M钢的修复问题以及高强钢的制造与再制造问题,基于激光熔池快冷诱导马氏体相变原理,采用激光熔覆技术,在300M钢基材上设计制备一种回火温度在500℃及以下能保持高强韧
由中国遥感应用协会专家委员会和核工业北京地质研究院国家级遥感重点实验室(以下简称:核地研院遥感实验室)主办,核工业航测遥感中心、广西壮族自
期刊
随着中国社会的经济发展日趋加快,我国气象灾害造成的经济损失问题也日益严重,多种气象灾害的交替发生更是长久以来令各国经济发展困扰的问题。草原牧区是中国重要的生态系统
船舶领域是海上交通工程学和航海界专家学者重点关注的研究内容之一。对于船舶自动避碰、评估碰撞危险、测量交通容量等方面,船舶领域的研究也具有重要的价值和意义。近年来