基于开源框架的大数据主动学习

来源 :河北大学 | 被引量 : 0次 | 上传用户:naimiu2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的快速发展和科学技术的进步,每天都会产生大量的数据,这些数据大部分是无类标的数据,例如网页数据、音频数据、视频数据等。标注这些无类标的数据非常困难,而且费时费力。主动学习是解决这一问题的一种有效方法,它以迭代的方式从无类标的数据集中,选择重要的样例交给领域专家进行标注,并将标注的样例加入到训练集中,然后重复训练分类器,直到分类精度达到预定的标准。随着大数据时代的到来,大数据给传统的主动学习带来了巨大的挑战,研究大数据主动学习具有重要的意义和价值。本文利用大数据开源框架研究大数据环境下的主动学习,主要研究了传统的主动学习算法在大数据环境中的可扩展性及其在大数据开源框架(如Hadoop和Spark)中的实现。大数据主动学习中的大数据指的是无类标的数据是大数据集,而有类标标签的数据是中小型数据集,这也符合现实中实际情况。因此,大数据主动学习的目标是从无类标标签的大数据集中选择尽可能少的样例交给专家进行标注,使得标注代价最小。具体地,本文主要研究了以不确定性为样例选择标准,以极限学习机为分类器的主动学习算法,并对当下最流行的两个大数据开源框架Hadoop和Spark进行了学习研究,在此基础上提出了两种算法来解决大数据环境下的主动学习。一是基于Hadoop的大数据主动学习,主要研究了大数据主动学习算法的MapReduce实现,使得传统的主动学习算法在Hadoop平台上并行地运行。二是基于Spark的大数据主动学习,研究了通过Spark的RDD操作实现大数据主动学习,在Spark集群中通过内存计算来迭代处理数据。此外,还对基于两种大数据开源框架(即Hadoop和Spark)的主动学习进行了比较研究,得出了一些有价值的结论,对从事相关研究的人员提供很好的帮助。
其他文献
在新课程改革的背景下,英语课程强调从学生的学习兴趣,生活经验和认知水平出发,倡导体验、实践、参与、合作与交流的学习方式和任务型的教学途径,发展学生的综合语言运用能力
水彩画自身所特有的绘画语言受到艺术家们的偏爱。在造型艺术的门类中,水彩画独具韵味的表达形式是其它绘画门类所不能及的。水彩画中的韵味美来源于画家们对水分和颜料性能
本文指出了各种教材在阐述 VSEPR理论时存在的问题 ,引进了求算中心原子价层电子对总数的新方法 ,在操作程序和技巧上探讨了如何运用该理论来判断包括内部存在π键、大π键在
我国是一个诗的国度,有着几千年的诗教传统。可是由于受语文实用倾向的影响,诗歌写作教学越来越不被重视。长此以往,只会导致诗教薪火失传,学生精神荒芜,生活缺乏诗意。为此,
叶圣陶曾经说过:"就教学而言,精读是主体,略读只是补充;但是就效果而言,精读是准备,略读才是应用。"从叶老的话中我们可以得出这样的一个信息:精读课文授之以"法",而略读课文
目的对可能影响非小细胞肺癌(NSCLC)脑转移的临床因素进行收集和分析,并建立一个有效的诺模图评分模型,实现对NSCLC脑转移的预测。方法收集2010年1月至2015年1月352例NSCLC患
为了探讨台湾草草坪杂草的化学防除措施,根据所选草坪的杂草种类,选用20%二甲四氯、20%使它隆乳油、绿宝、海正绿坊4种化学除草剂进行试验。结果表明:防除杂草效果最差的是药
目的:PM2.5现已成为当今社会的热门话题,然而PM2.5所致肺炎的机制仍不清楚。此外,目前尚无成熟的针对PM2.5所致肺炎的治疗方法。该研究旨在探讨PM2.5所致急性肺炎的潜在机制,
目的探讨固定义齿及活动义齿运用到牙周病修复治疗中的效果对比。方法抽取2014年3月至2016年3月到我院诊治的牙周病患者72例,分为两组,36例对照组采用固定义齿进行修复治疗,3
随着我国大学英语教学改革的不断深入,更多的教学方式被引入了教学中,其中多媒体技术的广泛应用,有效地提高了大学生的听说读写能力。由于传统的英语教学模式对于我国的大学