基于分层聚类及重采样的大规模数据分类

来源 :计算机应用 | 被引量 : 9次 | 上传用户:sxlijx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模数据的分类问题,将监督学习与无监督学习结合起来,提出了一种基于分层聚类和重采样技术的支持向量机(SVM)分类方法。该方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。实验表明,所提方法可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果。
其他文献
针对机坪地面空调间歇故障引起的使用效能低、维修滞后等问题,提出了二次关联累加数组(AS)-Apriori与聚类K-means相结合的间歇故障预测方法,并基于此实现了延误维修预测.其中
针对传统粒子群优化(PSO)算法通过单群优化,存在着精度较低、易陷入局部最优解等缺点,提出一种可适性群集变动的微粒算法(ADCPSO)。此算法将依据收敛公式的数值大小,判断粒子群收敛程度,从而动态地调适粒子群群集大小,以提高种群的多样性,有效地避免提早收敛等问题。通过与其他8种粒子群优化算法在CEC2010标准函数下的仿真测试结果表明:ADCPSO算法凭借着简明算法结构,在寻优能力和算法精度上表现
本文通过对我国最大的网络平台淘宝网和天猫商城注册保证金的现有收取方式进行研究,从质量保障的角度,提出新的注册保证金收取方式,采用层次分析法对网上店铺进行综合等级划分,建
本文从健全制度、注重实效、不断深化等方面对创建安全屏障工程进行了探讨。
随着铁路政企分开重大战略部署的实施,加快铁路体制机制改革和确保铁路安全生产的双重任务对铁路企业领导干部的能力提出了新的更高要求。推动铁路企业领导干部能力适应改革发
近代著名史学家张森楷毕生从事史籍校勘与编纂事业,编订的《二十四史校勘记》、《史记新校注》等堪称国史研究和校勘学之典范,主修的《合川县志》是康熙以来少见的新修地方佳
女书异体字的概念不同于汉字异体字.女书是汉字的一种变体,其文字性质已由表意文字变成表音文字,即音节字符表音文字.女书记录语言是采用同音假借的方法,用一个汉字变体音节
国办发〔1999〕53号(一九九九年六月六日)自1993年三峡工程库区移民正式实施以来,在全国人民的大力支持下,通过库区各级政府的积极努力,一期移民任务顺利完成,确保了大江截流如期实现。从1998年开
国办发[1999]49号各省、自治区、直辖市人民政府,国务院各部委、各直属机构:国家经贸委《关于清理整顿小玻璃厂小水泥厂的意见》已经国务院同意,现转发给你们,请认真贯彻执行
国办发〔1999〕35号(一九九九年四月五日)国家经贸委、外经贸部、海关总署、财政部、国家税务总局、中国人民银行、国家外汇管理局《关于进一步完善加工贸易银行保证金台帐制度的意见