面向大数据的主动学习数据分类算法的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:liongliong498
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是目前人工智能和数据库领域研究的热点问题,数据分类是数据挖掘研究中一个重要的分支,而对于数据分类算法的研究存在一个很大的问题,即传统的数据分类算法大部分都是有监督式的,所以在分类的过程中需要大量的被标注类别的训练集来训练分类模型。但是现实世界中数据都是没有进行标注的,因此,需要人工进行标记,这种代价十分昂贵,尤其对于当今社会,海量数据的不断产生,对训练集的需求更大,使数据分类的研究面临一个十分巨大的挑战。主动学习为这一问题提供了一个很好的解决方式,主动学习的目的是通过在未标记的样本池中选择那些对分类最有帮助的样本进行人工标记来构造分类需要的训练集,这样做不仅减少了人工标记的代价而且缩小了训练集的规模,对于数据分类中遇到的瓶颈是一个很好的解决方式。本文将从这一点出发,将主动学习与数据分类算法中两种经典的分类算法(SVM,KNN)进行融合研究,首先详细分析了主动学习以及两种分类算法的原理及执行流程,接着提出了面向大数据的主动学习数据分类算法,本文主要的贡献如下:1.提出了主动学习多分类SVM算法的--BC-Multiple-SVM,对于样本选择算法中样本均衡问题提出了面向大数据的改进算法,设计了基于MapReduce的分布式样本选择算法的实现。2.提出了主动学习KNN算法-Uncertainty-KNN算法,针对KNN算法中样本选择算法中样本不确定度的计算以及选择,提出了面向大数据的样本选择算法,设计了基于MapReduce的分布式样本选择算法的实现。3.在搭建的Hadoop平台上针对不同的大数据集对提出的算法进行了对比实验,结果表明本文提出的SVM样本均衡策略的精确率更高,而且整体而言,通过主动学习的样本选择策略构造的训练集规模更小而且精确率很高。4.除此之外,本文还通过对SVM及KNN算法在不同数据集上的性能测试实验,对算法运行的时间进行了分析,分析了各个算法的适用情况。
其他文献
目的探究解剖性肝切除术与非规则性肝切除术治疗肝内胆管结石的临床效果。方法选择2015年1月—2018年1月入院治疗的肝内胆管结患者80例作为研究对象。根据患者治疗方式的差异
通过对典型病案的治疗分析,阐发术后远期粘连性肠梗阻归属中医肠结范畴。病位在肠在腹,正气亏虚为核心要素,治疗不可一下以蔽之。当析证审机,温中降逆、辛散开结立法,缓急有
<正>墨梅始于华光,画史已有定论。有诗曰:"世人画梅赋丹粉,山僧画梅匀水墨。"(1)从存世作品看,两宋画"梅"的审美追求,既有宫廷画梅的勾勒填彩,追求雅致的装饰意趣,也有文人画
目的:研究小儿喉乳头状瘤组织中P-STAT3和V EGF的表达情况及其相关性,并用CD34标记血管内皮细胞行微血管密度的测定,拟探讨P-STAT3、VEGF和CD34-MVD的表达在小儿喉乳头状瘤发
目的:探讨脆性组氨酸三联体基因(FHIT)和p21基因在外阴癌、外阴上皮内瘤变、外阴尖锐湿疣及正常外阴组织中的表达及其意义。方法:采用免疫组化(SP)法检测49例外阴鳞癌,39例外
落户奖励、投资奖励、经营贡献奖励最高2000万元,企业壮大奖励最高1000万元,企业办公用房补贴最高800万元,人才奖励最高200万元……从今年开始,武汉支持总部企业发展奖励将提
目的观察两种不同手术方案治疗新生血管性青光眼的疗效。方法将208例新生血管性青光眼患者随机分为研究组和对照组各104例。对照组给予患者睫状体光凝术治疗,研究组给予患者
中职教育是我国教育的重要组成部分,是为国家培养出既具有一定专业技能,又具备一定职业意识和职业素质中等应用型人才。中职的学生在一般人眼中是"后进生",如何帮助他们树立
金农在梅花图中采用了个性化的符号语言,独立于扬州的书画市场。本文试图以梅花的符号性特点,来分析金农在面对激烈的市场竞争的情况下,利用梅花的符号性特点调和文人精神和
我国传统农业延续的时间十分久远,到战国、秦汉之际已逐渐形成了一套以精耕细作为特点的农业生产技术.随着社会生产力和生产关系的协调发展,现代的农业生产方式逐步代替了传