剪枝与欠采样相结合的不平衡数据分类方法

来源 :计算机应用研究 | 被引量 : 9次 | 上传用户：madefake

【摘要】

：

通过剪枝技术与欠采样技术相结合来选择合适数据,以提高少数类分类精度,研究欠采样技术在不平衡数据集环境下的影响。结果表明,与直接欠采样算法相比,本文算法不仅在accuracy值上有所提高,更重要的是大大改善了g-means值,特别是对非平衡率较大的数据集效果会更好。

【作者】

：

张健方宏彬

【机构】

：

安徽大学数学科学学院

【出处】

：

计算机应用研究

【发表日期】

：

2012年03期

【关键词】

：

机器学习不平衡数据集剪枝技术欠采样技术交叉验证合并分类器增强算法 machine learning imbalanced data sets pr

【基金项目】

：

国家自然科学基金资助项目（71071002）, 安徽省教育厅自然科学基金资助项目（05010428）, 安徽大学人才队伍建设项目,安徽大学学术创新团队项目（KJTD001B）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于扩展的Markov逻辑网的蛋白质beta结构关联预测方法研究

传统机器学习方法在蛋白质关联图预测中要求满足独立一致性的条件,为了克服传统机器学习独立一致性假设,并且利用关联残基之间的规则约束,提出一种基于扩展的Markov逻辑网的蛋白质beta关联预测方法,该方法能够利用Markov统计关系学习框架来实现蛋白质beta结构关联预测。实验结果表明,利用该方法能够获得较好的beta关联预测效果,实验预测精度能够达到45.91%,较BetaPro能提高8%,是随机

期刊

MARKOV逻辑网蛋白质关联预测beta-残基神经网络Markov logic network protein contact prediction

二元蚁群优化算法研究综述

二元蚁群优化算法作为蚁群算法改进的一种,其独特的随机二元网络结构在离散域及连续域优化问题中均得到较好的应用,但探索和利用的冲突、单一种群寻优的局限性以及算法评价次数的增加均限制了二元蚁群算法更好的发展。从一维细胞自动机入手,首先对二元蚁群优化算法的基本模型进行描述,然后讨论了近年来对二元蚁群优化算法的若干改进及应用;最后评述了二元蚁群优化算法未来的研究方向和主要研究内容。

期刊

二元蚁群优化算法细胞自动机拥塞控制多种群可控搜索灾变binary ant colony algorithm（BACO） cellular auto

基于面上DNA计算求解最小集合覆盖问题

利用DNA分子结构推得DNA计算机理及实现方式,提出用面上DNA计算模型求解最小集合覆盖问题,给出了具体应用和算法评价;在计算模板表面穷举了所有可能的结果,同一时间验证结果是否满足条件,实现DNA计算的强大并行性;同时在互补的寡聚核苷酸片段发生退火反应时,通过催化剂来决定是否杂交,减少人工参与、提高计算效率。最后,通过计算机仿真模拟验证了本模型的可行性。

期刊

DNA计算表面方式最小集合覆盖问题DNA computing surface-based fashion minimal set covering p

基于密度信息的改进降维方法

扩散映射(diffusion maps)是一种基于流形学习的非线性降维方法。为了提高降维的效果,根据近邻点的选取对diffusion maps的降维效果影响,利用数据近邻点分布的不同,挖掘该数据点局部的密度信息,能够更好地保持数据的流形结构。利用样本点聚类后的类别信息构造密度信息指数,提出了一种改进的diffusion maps算法,有效地保持了高维数据中的流形结构,所提的新算法在多种实验中得到了

期刊

流形学习降维聚类扩散映射manifold learning dimensionality reduction cluster diffusion map

基于改进PSO_LSSVM机械结构疲劳裂纹扩展预测

机械结构在长期的存储中,疲劳裂纹的变化受到多种环境因素的影响,针对目前疲劳裂纹预测准确率低的问题,提出一种基于最小二乘支持向量机方法(LSSVM)来预测机械结构的疲劳裂纹长度,通过改进的粒子群优化算法对LSSVM进行参数优化。改进的粒子群参数优化算法采用二次型惯性权重递减策略,使粒子群优化算法的优化过程更接近实际的非线性和高复杂过程。经仿真实验验证,结果表明,基于改进的粒子群参数优化的最小二乘支持

期刊

粒子群参数优化最小二乘支持向量机疲劳裂纹二次型惯性权重递减策略particle swarm parameter optimization （ PPSO

面向数据挖掘的云资源多实例组合购买决策研究

将项目管理中的关键路径法引入到云资源布局优化策略中,针对非实时性任务通过多种云计算资源的组合,可以进一步降低资源使用成本。提出了两种组合策略,第一种是结合云计算的多种定价服务模型,利用低成本的现货竞价实例和具有稳定性的按需运行实例进行组合来降低成本;第二种是结合云计算资源的多种配置实例处理性能,通过对不同配置等级的实例进行组合,在保证完成时间的基础上使用低配置实例,降低云计算成本。实验表明该策略最

期刊

数据挖掘云计算多实例组合data mining cloud computing multi-instance combination

一种有效的不确定数据概率频繁项集挖掘算法

针对PFIM算法中频繁概率计算方法的局限性,且挖掘时需要多次扫描数据库和生成大量候选集的不足,提出EPFIM(efficient probabilistic frequent itemset mining)算法。新提出的频繁概率计算方法能适应数据流等项集的概率发生变化时的情况;通过不确定数据库存储在概率矩阵中,以及利用项集的有序性和逐步删除无用事物来提高挖掘效率。理论分析和实验结果证明了EPFIM

期刊

不确定数据可能世界期望支持度概率频繁项集uncertain databases possible word expected support pr

复形法粒子群优化算法研究

针对基本粒子群优化算法对复杂函数优化时难以获得最优解的缺陷,提出了一种复形粒子群优化算法。该算法采用复形法来提高粒子的局部搜索能力,从而保证了算法能够跳出局部最优,获得全局最优解。实验结果表明,与文献算法相比,该算法在基准函数优化时具有更强的寻优能力和更高的搜索精度。

期刊

粒子群优化算法复形法复形法粒子群算法函数优化particle swarm optimization algorithm complex method

基于PSO-RBF神经网络的模拟电路诊断

为了提高径向基神经网络(radial basis funtion neural network,RBFNN)进行模拟电路故障诊断的速度与准确性,提出了一种基于粒子群算法(particle swarm optimization,PSO)优化RBFNN的故障诊断方法。该方法利用PSO优化RBFNN的结构参数,克服了神经网络中模型结构和参数难以设置的缺点,避免了参数选择的盲目性;同时对模拟电路的响应信号

期刊

模拟电路故障诊断径向基神经网络粒子群算法小波包分解analog circuit fault diagnosis radial basis func

Web病毒式营销核心群体挖掘与推荐策略

Web病毒式营销已经成为电子商务领域中的重要营销策略,核心群体在其中发挥着重要的作用。为了挖掘核心群体并对其进行商品推荐,在Web客户信任网络(customer trust network,CTN)的基础上考虑了信任度、评价分数以及推荐次数等因素定义了影响度的概念,提出了以影响度为基础的节点网络影响集的构建方法以及基于网络影响集的核心群体挖掘算法MCGNIS(mining core group b

期刊

病毒式营销核心群体影响度网络影响集可推荐度viral marketing core group influence degree network

剪枝与欠采样相结合的不平衡数据分类方法

与本文相关的学术论文