基于投票机制和开源框架的大数据约简研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:hanjian8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的爆炸式增长,越来越多人开始关注大数据问题。由于大数据具有规模大、维度高、数据复杂且变化速度快的特性,导致传统的机器学习算法不再适用。大数据约简是解决大数据问题的一种有效方法,大数据约简方法主要分为两类:样例约简和属性约简,也称为样例选择和特征选择。样例选择是从大规模数据集中选择出最有代表性的数据子集来代替原始数据集,特征选择是从高维的数据集中选择出重要的特征子集,并将原始数据投影到特征子集上。两种方法的目的都是为了在不降低学习系统泛化能力的前提下,降低计算复杂度,提高学习效率。本文的主要工作包括以下三个方面:(一)提出了一种基于投票机制的大数据样例选择框架,该框架通过迭代操作完成样例选择。首先,将大数据集划分成两个子集,第一个子集D1是大型子集,第二个子集D2是中小型子集;然后,再将D1划分成q个规模较小的子集D1j(1≤j≤q),并将这些子集部署到q个云计算节点。此外,D2广播到q个云计算节点。接下来,在各个节点,并行地用本地数据子集D1j训练分类器,并用训练的分类器从D2中选择样例。重复上述过程p次,得到p个样例子集;最后,用这p个子集进行投票,得到最终选择的样例子集。在这一框架的基础,提出了两种大数据样例选择算法:(1)基于决策树和投票机制的大数据样例选择算法;(2)基于随机森林和投票机制的大数据样例选择算法。第一个算法在本地节点用决策树算法在D1j上训练分类器,并用训练的分类器对D2中的样例进行分类。在此基础上,计算投票熵并进行样例选择。第二个算法在本地节点用随机森林算法在D1j上训练分类器,用训练的分类器对D2中的样例进行分类,并直接进行样例选择。(二)因为决策树算法可以看作是一种嵌入式特征选择算法,受这一思想的启发,提出了一种基于决策树和投票机制的大数据特征选择算法。首先,将高维大数据集划分为多个数据子集,并分发到map计算节点上,在每个map计算节点上使用决策树算法进行特征选择。在reduce节点,用每个map节点选择出来的特征进行投票,最终得到选择的特征子集。(三)在MapReduce和Spark两个开源大数据平台,编程实现了提出的三个算法,并与相关算法进行了实验比较,实验结果证明了本文提出的算法是可行且有效的,优于实验比较的算法。此外,还对基于Hadoop和Spark两种开源平台的实现进行了实验比对,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用。
其他文献
随着社会的发展,人们的生活场景也随之发生较大的改变。如今各种电子智能设备随处可见,不健康的作息时间及用眼疲劳等导致了更多的人患眼底疾病。视力是人们获得外界信息的重要方式,倘若发生病变会严重妨碍人们的正常生活。不同眼部疾病会对眼底结构造成不同程度的变化,眼底图像是医生诊断眼部疾病最直接和有效的凭据,因此进行眼底图像分析对眼部疾病的辅助诊断具有重要意义。对于眼底图像早期分析,包括视网膜血管分割和视盘视
阿尔兹海默症(Alzheimer’s Disease,AD)俗称老年痴呆,是一种不可逆且致死的慢性神经性疾病。目前,全球有阿尔兹海默症患者5000万人,且患病人数逐年增长。该病发展病程缓慢,且临床上没有能完全治愈该病的方案,只能在该病前驱期(Mild Cognitive Impairment,MCI)通过一些药物或心理干预的方法减轻症状延缓病情。因此,通过医学影像技术对该病及其前驱期的诊断非常重要
随着社会和科学的不断进步,移动机器人在各方面得到广泛的应用,其中运动目标检测和跟踪技术也应用到移动机器人上,受到广泛研究者的关注。然而,运动的目标在检测和跟踪,会受到各种各样因素的影响,比如出现动态背景的干扰,光照的突然变化,遮挡物体的突然出现,目标颜色与背景颜色相似等情况,这些因素都会对检测和跟踪产生干扰,所以对于运动目标检测和跟踪技术的研究也变得越来越重要。为解决上述问题,本文主要借助移动机器
虽然,视觉SLAM(Simultaneous Localization and Mapping)广泛应用于机器人自主定位和地图构建。但是,在面对光照变化、纹理变化、以及快速运动等情况时,视觉SLAM定位会产生精度不准确的问题。因此,在视觉SLAM系统中引入IMU传感器进行耦合(视觉惯性里程计)提升定位的准确性和鲁棒性。其中,若视觉信息失效会导致IMU迅速漂移。当移动机器人以恒速运动或者纯旋转运动时
随着现代物流和服务行业的发展,人们对移动机器人的功能要求越来越高,希望机器人能深入人类社会生活,协助人类完成更精细、更多样的智能任务。提高移动机器人功能的技术核心是自动导航技术,该技术能使移动机器人在复杂陌生的环境中自主且精准地完成导航任务,但目前传统的导航方式已然不能满足现代需求。被广泛研究的实时定位与地图构建(Simultaneous Localization and Mapping,SLAM
混沌是在研究非线性系统过程中发现的一种极为特殊的现象,其动态特征极为复杂。混沌理论是现代非线性系统研究的重要分支。本文基于Lü系统,通过增加非线性状态反馈控制器,提出了一种新型超混沌系统。在此基础上对系统的状态方程进行了动力学特性分析:如耗散性、稳定性、初值敏感性等;通过对该系统Lyapunov指数谱的分析,得出了系统在周期、准周期、混沌及超混沌状态下的系统参数范围及相对应的相位图。根据系统的状态
如今全球糖尿病的人数越来越多,很多糖尿病并发症都会成为人眼失明的主要原因,如糖尿病视网膜病变(Diabetic Retinopathy,DR)、新生血管性青光眼(Neovascular Glaucoma,NVG)等,一旦疾病恶化到一定阶段,会对视力造成不可逆转的损伤甚至失明。目前对于眼底病变的诊断基本通过专业医生对眼底生理结构或病灶直接观察。这个过程费时费力,同时眼底图像病症复杂,各种病变程度存在
导热系数是材料的热物性参数之一,导热系数的准确测量有着非常重要的理论意义和使用价值。防护热板法是目前为止测量绝热导热材料导热系数最准确的绝对方法,但是近年来中国计量科学研究院开展的国内绝热材料导热系数测量的比对结果显示,不同实验室、不同来源的防护热板导热仪的测量偏差达到±15%。分析比对结果,认为产生测量差异较大的关键原因是导热仪的温度测量和控制水平不高,急需一种精确控温的方法和热控制系统,来提高
运动目标检测与跟踪技术是计算机视觉领域的一个重要研究课题,已经被广泛应用于安防、交通管理、机器人视觉。通过搭载视觉传感器获取视频图像信息,已成为移动机器人平台感知环境的重要方式。本文基于单目视觉研究NAO机器人运动目标检测与跟踪应用实现。由于实际应用场景复杂多变,现有的算法不能满足实际应用的需要。针对经典Camshift算法应用于机器人目标跟踪过程中遇到的问题,分别从目标检测和目标跟踪两个方面进行
在全球范围内,肺癌的死亡率居各种癌症之首。肺结节是肺癌早期的发病症状,准确检测与治疗肺结节对降低肺癌患者死亡率具有重要意义。目前,肺结节的筛查与诊断主要通过计算机断层扫描(CT)图像来实现。然而,肺结节在CT图像中尺寸不固定、形态多变,且易与肺内血管、器官等组织混淆粘连,因此,准确检测肺结节是一项十分困难的工作。随着深度学习在医学图像中的发展和应用,使人工智能技术辅助医生快速诊断肺结节已成为可能。