基于大数据平台的K12在线教育数据仓库设计与实现

来源 :北华航天工业学院 | 被引量 : 1次 | 上传用户:hai_john
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展人们产生的数据越来越多,为了处理并挖掘这些数据的价值,大数据技术得到了飞速的发展与应用。Hive作为构建与大数据基础平台之上的开源数据应用,具有高扩展性、高容错性、模式自由的特性,能很好地满足企业级数据仓库地需求。因此,各个行业已经开始大力建设基于大数据平台的数据仓库,通过其对数据进行采集、处理挖掘出其潜在的价值。本论文以K12在线教育的业务需求为背景,在充分研究企业业务需求的基础上,对基于大数据平台的K12在线教育数据仓库进行了总体的系统架构设计,针对数据处理过程进行了数据流向框架设计及技术选型。通过大数据生态开源组件搭建并部署Hadoop集群,编写Flume、Kafka等程序采集课堂埋点日志,使用Java编程语言在日志Etl清洗、转换、脱敏后接入Hive。将已有地Mysql业务库数据通过Sqoop导入Hive,采用Shell编程语言开发数据一致性校验脚本,对进入数据仓库的数据进行正确性校验。结合K12在线教育企业具体的业务需求采用维度建模,选取星型模式进行数据仓库分层设计与开发,最终完成了数据仓库的设计与实现,并对数据仓库实现的功能进行展示与分析。本论文完成了基于大数据平台K12在线教育数据仓库的设计与实现,提供了标准的报表及看板的展示,满足了各个业务部门的业务需求,通过模型建立支持了数据多维分析,增强了信息处理能力,并且为数据挖掘打下了基础。
其他文献
为了提高审计报告的信息含量,基于国际审计准则的具体要求,我国财政部于2016年12月发布了审计报告的新准则《中国注册会计师审计准则第1504号》,要求注册会计师在审计报告中
近年来,随着人们法律意识的增强,加之新闻媒体对医疗界个别问题的炒作,各地医疗纠纷呈逐年上升趋势。使得医患关系成为社会关心的焦点,使医务人员产生了沉重的心理压力,从而导致医
CODcr和TOC均是表征水体有机污染程度的指标,对于一般有机废水,理论上两者线性相关。采用线性回归法对冶金钢铁行业废水中TOC和CODcr两项指标的监测数据进行统计分析,建立CODcr
医院供应室为前线医疗人员及队伍提供后勤保障,由于其职业的特殊性,其接触到危险的可能性也较大,因此,提高供应室人员的自我防护能力和意识极其重要。本文从生物因素、化学因
目的:考察在反相色谱系统中,阴离子对试剂对有机弱碱盐保留时间的影响。方法选择了三种阴离子对试剂,分析了它们对三种有机弱碱盐保留时间的影响。结果阴离子对试剂碳链长度
目的:对子宫肌瘤采用米非司酮联合甲基睾丸素治疗的临床疗效进行研究。方法从我院子宫肌瘤患者中选取74例,并按照治疗方法将其分为治疗组(采用米非司酮联合甲基睾丸素进行治
位于开封市南关五福路125号的开封市肿瘤医院,是豫东地区唯一的国家二级甲等肿瘤专科医院.河南省肿瘤诊疗网络分中心.开封市花园式医院.开封市基本医疗保险和新型农村合作医疗保
硫和硫的化合物广泛存在于石油中,在对石油及其馏分油进行加工、运输或燃用的过程中,硫化物会对设备造成不同程度的腐蚀,同时会对环境造成严重的影响。因此,对原油进行预脱硫
目的:为探讨多种肝癌标志物联合检测对原发性肝癌的临床诊断价值。方法:对79例B超:计算机断层扫描(CT)诊断为肝实质性占位性病变的肝癌患者进行了甲胎蛋白(AFP0、α-L-岩藻糖苷酶活力