【摘 要】
:
在科学技术引领的大数据时代背景下,海量的数据给各领域都带来了数据分析的需求,并且数据挖掘的技术门槛、工作量、工作繁琐程度也日益提高。基于上述需求,许多企业将可视化技术与数据挖掘技术相结合,将数据挖掘过程与结果以直观的形式展示给用户,提高数据挖掘工作的效率、准确性和有效性。但是目前已有的数据挖掘可视化平台还存在以下缺点:1)数据挖掘模型执行流程未结合系统底层计算框架的工作流程与任务调度逻辑,计算性能
论文部分内容阅读
在科学技术引领的大数据时代背景下,海量的数据给各领域都带来了数据分析的需求,并且数据挖掘的技术门槛、工作量、工作繁琐程度也日益提高。基于上述需求,许多企业将可视化技术与数据挖掘技术相结合,将数据挖掘过程与结果以直观的形式展示给用户,提高数据挖掘工作的效率、准确性和有效性。但是目前已有的数据挖掘可视化平台还存在以下缺点:1)数据挖掘模型执行流程未结合系统底层计算框架的工作流程与任务调度逻辑,计算性能利用率有待提高;2)缺乏对数据挖掘工作完整生命周期的考虑,对数据挖掘建模工作的难度、繁琐程度和重复度优化不足;3)缺乏数据挖掘完整流程的工作报告,未能对数据挖掘工作的总结学习,优化提升提供有效途径。针对上述缺点,本文的研究内容如下:1)结合分布式数据挖掘框架Spark的工作流程,设计并实现数据挖掘流水线模型的执行流程。该流程为系统提供基础的数据挖掘算法,基于分布式框架的任务调度逻辑为流水线模型提供模型翻译技术和模型执行流程。2)结合数据挖掘完整生命周期,设计并实现数据挖掘可视化系统。该系统支持用户拖拽式构建数据挖掘流水线模型,提供各类数据挖掘算法WebAPI、配置模块以及可视化的执行结果与日志模块,为数据挖掘完整流程提供可视化工作环境。3)设计与实现数据挖掘可视化报告子系统,该系统基于组件化设计,根据数据挖掘算子数据类型,为用户提供多种算子报告模板,支持用户结合系统报告模板,选择数据挖掘项目的模型数据和结果数据,自主编辑生成数据挖掘报告。基于以上研究内容,本文设计与实现了基于Web的数据挖掘可视化平台。该平台基于Spark分布式框架为用户提供高效的数据挖掘计算能力,提供拖拽式的流水线建模方式,将用户高度接入数据挖掘过程中,提供自主编辑与系统模板相结合的数据挖掘报告生成功能,将数据挖掘的完整生命周期以高度可视化的方式呈现给用户。该可视化平台对于提升数据挖掘性能,降低数据挖掘工作难度、复杂度和重复度,降低数据挖掘学习难度有极大意义。
其他文献
铬是一种常见的重金属,具有广泛的工业用途,在矿山开采、金属冶炼、电镀、化学药剂生产等工业过程中都会排出大量的含铬废水。水中铬以Cr(Ⅵ)和Cr(Ⅲ)两个价态存在,其中Cr(Ⅵ)难以降解,其毒性较大而难于处理,对自然环境和人类社会造成了威胁。传统的处理方法主要包括物理吸附和化学沉淀,吸附法具有低成本、低污染、高吸附量的优点,得到了广泛应用。活性炭由于原料来源广泛且廉价易得,是吸附材料的极佳选择。虽然
近年来,随着光伏产业的蓬勃发展,全国太阳能级硅料产量已超过40万吨,据统计,将有40%的高纯硅料以亚微米级切割锯末的形式进入切割液中,如此大量细微的切割废料直接排放必然带
近些年来,百度作为全球最大的中文搜素引擎,拥有数千亿的中文网页数据库,每天的访问流量已经非常庞大。然而,随着互联网的蓬勃发展,用户的搜索产品也不断地变得丰富。为了帮
口腔种植义齿追溯其起源已有上千年历史,随着种植体设计的不断革新、外科技术的不断成熟以及人们生活水平和口腔保健意识的不断提高,近来口腔种植义齿已成为口腔常见修复技术。种植义齿的成功率取决于种植体与骨界面之间的良好整合过程,而该过程则需要种植区有足够的牙槽骨骨量。但在临床工作中,常见由于先天发育不足、外伤、肿瘤或拔牙后牙槽骨吸收、萎缩等原因造成种植区骨量不足,而无法满足种植手术适应症的患者。如何解决种
随着传统学院派历史陷入困境,公众史学兴起并迅速发展,史学界日益关注历史学如何走出象牙塔,打破专业壁垒,面向公众,融入公众。科学史作为典型的精英历史,应该自觉接受这一变
肝癌是致死率较高的癌症类型,而肝癌在中国具有很高的发病率,全球一半的肝癌患者在中国。在肝癌术前进行预后分析,病理医生通过观察肝癌组织病理图像,并结合患者情况判断患者的预后,从而制定针对性的治疗方案。由于肝癌病理图像结构复杂且信息丰富,而且病理医生人才稀缺,造成了医疗资源的紧张。使用机器学习辅助进行预后分析,可以减轻病理医生的负担,病理医生可以更加专注于患者的治疗,从而提高肝癌的治愈率。本研究使用图
为探究入侵植物加拿大一枝黄花(Solidago canadensis)和大狼把草(Bidens frondosa)传粉网络的地理变异。本研究2017和2018年的911月份在北京市、山东省、江苏省、江西省、安徽省、湖北省、湖南省、上海市、浙江省、福建省等样地开展实验,以加拿大一枝黄花和大狼把草及其周边显花植物为研究对象,调查两种入侵菊科植物的访花昆虫及其传粉网络,结合环境因子分析不同地域间传粉网络
创世史诗《牡帕密帕》是古老的少数民族拉祜族口耳相传下来的,群众基础深厚。主要在宗教活动中,传统节庆时或着农闲期间诵唱,是维系这个古老民族精神生活的纽带所在。《牡帕密帕》讲述了从宇宙混沌开始,天神厄萨造天造地,造物造人及人类最初始阶段的生产生活状态。国务院于2006年5月20日将《牡帕密帕》列入第一批国家级非物质文化遗产名录。《牡帕密帕》是拉祜族民间流传极广的创世史诗,它是集拉祜族的政治、经济、文化
软件缺陷预测是一个活跃的研究领域,它寻求有效的方法来预测给定软件项目中的缺陷倾向。软件缺陷预测技术通过挖掘源代码文件和一些开发文档,提取相应的度量来学习构建预测模型,然后对新的文件系统进行预测。往往一个新的文件系统没有足够的历史数据来训练模型,跨项目缺陷预测技术(Cross-Project Defect Prediction,CPDP)也就应运而生,它使用来自同公司的类似项目(源项目)作为训练数据
随着我国保险行业的迅猛发展,消费者投保意识的增强,越来越多的家庭会选择投保人身保险合同以期获得身故后的保险利益。实现人身保险合同的目的具有长期性,在漫长的生活过程中,基于各种各样的因素,被保险人极易发生情感的变化,进而将保险受益人予以变更。实践中频繁出现通过遗嘱方式变更保险受益人的案例,但我国保险法及相关司法解释并未明确规定该种变更形式的效力,同时也未明确禁止,导致同类案件的判决结果大相径庭。文章