Spark环境下基于综合权重的不平衡数据集成分类方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:taiyangkaimen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类经常面临样本严重不平衡、少数类样本分类精度低的问题,随着数据规模增大,分类效率也成为了瓶颈问题.针对以上问题,本文结合spark高效的数据处理能力,提出了一种Spark环境下基于综合权重的不平衡数据集成分类方法.该方法首先依照多数类样本中每类样本的权重以及少数类样本量获得的综合权重进行采样,并与少数类样本组成平衡规模的训练数据集;其次,采用基于相关性的特征选择方法选择最优的特征子集,并对随机森林算法进行改进优化以及利用其获得子分类器.最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文方法不仅提高了整体分类精度,而且提升了分类效率.
其他文献
企业组建技术联盟根本的目的就是基于自己能力缺陷分散风险和降低研发成本,共享技术收益,企业技术联盟是一个典型的利益共生体。Logistic生物种群共生进化模型给技术联盟共生体
以汶川县为研究区,利用遥感、GIS和计算机三维可视化技术,对地质灾害进行了信息提取和解译,共解译滑坡53个,崩塌1 575个,地质灾害面积76.58 km2,并建立了相应的数据库。利用G
1.对课堂形态与说课关系的思考与解释1.1百度词条对“形态”的解释形态:形象词,形式或状态.指事物存在的样貌,或在一定条件下的表现形式."形态"是可以把握的,是可以感知的,或
期刊
目的探讨原发皮肤边缘区B细胞淋巴瘤(PCMZL)的临床和病理学特征,诊断和鉴别诊断。方法对2例PCMZL和1例皮肤淋巴组织增生(CLP)病例进行临床特征、组织形态学、免疫表型及PCRIgH基
选用30头体重350±10 kg西门塔尔×鲁西黄牛杂交肉牛,研究了不同水平维生素A(VA)对肉牛血清中总超氧化物歧化酶(T-SOD)、铜、锌超氧化物歧化酶(CuZn-SOD)、谷胱甘肽
《维基经济学》作者:唐·泰普斯科特出版:中国青年出版社素有“数字经济之父”美誉的新经济学家唐·泰普斯科特向我们展示了个体力量的上升是如何改变商业社会的传统规则,这
设计教育走向跨学科融合,不仅是应对知识生产模式变革和产业变化的要求,也是设计教育自身为培养复合型设计人才进行更深层次改革的有效路径。本文从产品设计专业跨学科实践的
显性多囊性肾病(ADPKD)是一种世界范围内高发遗传疾病,全世界每四百到一千人就有一个显性多囊肾病患者。多数病人在40到60岁发病,百分之五十的病人会发展成为晚期肾病,需要做透析
报告1例因长期服用囊虫丸所致的砷角化症和多发鲍温病。患者男,54岁。手足角化性丘疹20年,全身皮肤色素异常伴暗红色斑,破溃5年。曾因“脑囊虫病”间断服用“囊虫丸”10年,皮肤科
这里论述了应用遥感图像和数字高程模型(DEM)的融合技术,对在西部高原区机场建设(昆明小哨机场)研究区进行三维可视化处理的技术方法。在3S(RS、GIS和GPS)技术支持下,对遥感图像进行