基于重采样与特征选择的不均衡数据分类算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:seanzhow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SMOTE算法被广泛应用在不均衡数据研究中,但原始数据集中的噪声数据可能会使数据边界模糊造成数据分布改变.本文基于采样平衡与特征选择提出了BSL-FSRF算法.首先提出BSL采样,将少数类样本分为安全样本、噪声样本、边界样本,只对边界样本进行SMOTE插值,再利用Tomek link进行数据清洗,使数据集基本达到均衡的同时减少噪声样本的数量;其次引入“假设间隔”思想对各个特征维度进行度量,设定合适的阈值,将与类别相关性不高的特征移除,对数据降维;最后以随机森林作为分类器,用改进的网格搜索(Gridsearch)算法进行参数寻优.在公共数据集上对BSL-FSRF算法进行实验验证,结果表明该算法在少数类样本的分类准确率和分类器的整体性能上有明显改善,并且节省了运行时间.
其他文献
摘要:环境教育是解决环境问题的重要手段之一,是可持续发展的根本保障,学校是环境教育的主要阵地,而高校非环境专业学生的环境教育是环境教育的重要组成部分,应受到特别重视。文章根据我国非环境专业学生的环境教育所面临的主要问题,提出了非环境专业大学生开展环境教育的措施。  关键词:环境教育 可持续发展 措施    当今时代,人类在充分享受文明的同时,也在面临着环境污染、资源破坏、生态系统失调等一系列环境
局部区域特征的获取与表达对于研究三维CAD模型聚类至关重要.面向局部区域特征表达问题提出了在现有的六元组方法基础之上将其扩展为七元组,加入了模型中面与面相交形成的边属性信息,从而更好的获得了由局部区域特征构建的词汇本;在聚类阶段,提出了一种模型局部区域加权方法,该方法降低常见局部区域在聚类相似度计算时的最重要程度,从而相对提高了更有区分度的局部区域.实验结果表明,采用本文提出的表达方法能有效支持C
摘要:本文在语境策略下从口语交际教学方法,阅读教学方法,写作教学方法等三个方面对提高少数民族大学生汉语表达能力进行了初步探讨。  关键词:语境策略提高 少数民族大学生 汉语表达能力    一、提高少数民族大学生的汉语表达能力的必要性    对于少数民族学生来说,汉语虽属第二语言,但学好汉语是他们今后学习掌握一切科学知识的基础的基础,是接收知识信息的先决条件,是交流思想、表情达意的主要工具。因此
体育教学作为五育教育的一个重要组成部分,越来越受到社会的广泛关注,“发展体育运动,增强国民综合素质”这句口号虽然提了数十年,但始终并永远是现代教育的一个重要组成部分
小学数学是数学学习的基础。不断提出问题、解决问题的过程是数学学习的过程,提出问题的质量决定着学习的质量,直接影响着教学效果与学生的思维方式。本文结合理论分析和教学实
摘要:体育课程理论的研究是每一个教育工作者要着力解决的问题,体育课程的分层与细化。活动体育课程特点的明晰,能够更好地指导我们日常的教育教学和体育工作。  关键词:体育课程 活动体育课程    一、问题的提出    教育要发展,出路在于改革,其中课程改革是关键。加速人才培养,提高人才素质和能力,就必须更新课程观念。当前世界各国课程管理体制出现了新的发展趋势,这就是:中央统一领导的国家趋向于适当分散
摘要:在日常的体育教学中,对学生的体育与健康课程的学习进行科学而合理的评价是课程实施的一个必需和重要的环节。新的课程标准呼唤新评价理念指引下的有效的合理的体育学习评价——多元化评价。  关键词:新课程标准 多元化评价 评价指标 评价方法 评价主体 评价形态    在日常的体育教学中,对学生的体育与健康课程的学习进行科学而合理的评价是课程实施的一个必需和重要的环节。没有评价,我们不知道课程标准中所
目的:基于Meta分析方法对六味地黄丸联合降糖药治疗2型糖尿病(T2DM)的有效性、安全性和经济性进行评价.方法:计算机检索PubMed、Embase、the Cochrane Library、Springer、Pr
目的:通过治疗强直性脊柱炎,观察患者治疗前后的x线骶髂关节骨破坏的影像学的变化,评价清热利湿法治疗强直性脊柱炎的临床治疗效果,为利用中医药疗法临床治疗提供可靠的客观依据
针对传统文本聚类忽略词与词之间的语义关系和数据高维的问题,提出了一种结合新概念分解和频繁词集的短文本聚类.该算法首先对短文本进行频繁词集的挖掘,接着使用挖掘的频繁