云计算环境下机票价格预测及任务分配研究

被引量 : 0次 | 上传用户:mochi7momo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据研究方向的出现,传统的数据挖掘存在效率不高、无法直接处理大数据的问题。云计算技术为数据挖掘提供了一种新的思路。Hadoop是Apache组织下的一种开源分布式云计算框架的实现,以其可靠、高效、可伸缩的特点被应用于大数据处理环境。机票价格数据的获取与预测具有良好的市场需求与经济价值,属于大数据处理的研究范围,且目前研究成果不多,是本文的一个重要研究内容。另一方面,现有的Hadoop任务分配策略,尚不能很好地适应大数据处理。改进Hadoop任务分配策略,提高作业执行效率是本文的另一个研究内容。本文分别针对Hadoop环境下的机票价格预测问题和异构环境下Hadoop任务分配问题展开了研究,具体工作包括:1)针对航空收益的价格管理,力图挖掘出机票价格变化的规律,利用爬虫技术抓取机票数据,基于机票价格密度图像,提出用于决定是否购买机票的Cluster_Predict_Ticket算法。2)针对Cluster_Predict_Ticket算法在处理大数据量机票数据效率低下问题,提出Cluster_Predict_Ticket算法的MapReduce版本PCluster_Predict_Ticket算法,将算法移植到Hadoop环境,利用MapReduce编程模式提高算法效率。实验表明在不损失预测精度的前提下PCluster_Predict_Ticket算法更具扩展性和效率。3)针对异构环境下Hadoop任务调度问题,提出HTA (Hadoop Task Assignment)问题,使用最小费用最大流对HTA问题进行建模。提出了λ-Flow算法,将原先一次完成的任务分配过程划分成多轮,每轮基于当前集群状态,以及上轮任务的执行情况,动态进行任务分配,直至全部任务分配结束,以期达到最优执行效率。通过与其他算法对比实验表明,λ-Flow算法能够更好地适应集群的动态变化,有效减少作业执行时间。本文的成果验证了PCluster_Predict_Ticket算法的扩展性和λ-Flow算法的有效性,有效的解决大数据环境下机票价格预测的效率问题,提高了Hadoop作业的执行效率。本文关于数据挖掘算法MapReduce化的研究不仅仅适用于机票数据,可以扩展到其他数据挖掘场景,同时,本文工作也可为云计算环境下的任务调度问题提供一定的借鉴。
其他文献
教职工工资管理是高校财务管理工作的基础性工作之一,是涉及到所有教职工切身利益的一项重要工作,关系到高等院校教职员工队伍的稳定和发展。随着信息技术的飞速发展和高校信息
以GIS技术和SPSS软件为工具,根据巴马瑶族自治县人口统计数据,分析了该县各乡镇平均人口密度与地形指数、土地利用、主要道路和河流水系等因素的相关关系。通过分析各影响因
对大数据在各行业的应用进行分析,结合通信运营的业务特点,对大数据给运营商带来的机遇和挑战进行论述。由于数据量巨大,且数据类型极为复杂,传统技术手段无法满足要求,因此
目的:应用四维超声心动图技术评价扩张型心肌病(DCM)患者的右心室收缩功能,并探讨DCM患者右室心肌各个节段局部运动对于右心室整体收缩功能的影响,分析右心室收缩功能变化及局部心
【正】古代清官离任时,每每触景生情,思绪万千;常常洗刷心灵,顿生良知。或自省、自责、自愧,或亲民、爱民、颂民……百感交集,一吐心迹,皆成诗文。白居易——追悔己过唐代大
考察西藏社会历史的发展过程,有一个十分突出的特点,就是西藏在长达800多年的封建农奴制社会的发展过程中,商品经济的萌芽和发展困难重重,始终未能形成足以摧毁封建经济的强
"仿生学"是产生于上个世纪中期的用于研究生物学的一门新的学科。如今,它正朝着多学科相互交叉的方向发展,并对相关学科和文化的发展起到了促进作用。本文对舞蹈中的仿生学进
根据交通规划中交通流量、道路状况、人口分布等相关因素和最佳站距公式确定的站距,通过GIS的缓冲区分析、叠加分析及克里金插值等空间分析方法,以形象、易于理解、可视化方
在完成基于COMSOL软件水平井阵列感应测井响应三维数值计算技术研究基础上,以三层地层为例,详细计算分析水平井和斜井中井位置、目的层厚、目的层电导率、围岩电导率以及目的
近年来,主流的桌面和服务器软件均基于x86平台开发,但是龙芯是基于MIPS指令集的处理器,因此,如何让现有x86平台的软件兼容MIPS架构,成为了国产芯片发展的重要问题。二进制翻