基于混合采样的非平衡数据集分类研究

来源 :计算机应用研究 | 被引量 : 33次 | 上传用户:xybcn960
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的过采样算法在增加样本的同时可能使决策域变小和噪声点增加的问题进行了研究,提出了一种基于错分的混合采样算法。该算法是以SVM为元分类器,Ada Boost算法进行迭代,对每次错分的样本点根据其空间近邻关系,采取一种改进的混合采样策略:对噪声样本直接删除;对危险样本约除其近邻中的正类样本;对安全样本则采用SMOTE算法合成新样本并加入到新的训练集中重新训练学习。在实际数据集上进行实验,并与SMOTE-SVM和Ada Boost-SVM-OBMS算法进行比较,实验结果表明该算法能够有效地提高负类
其他文献
智能电网技术的不断发展,为家庭能量管理系统(HEMS)提供了新的研究方向。针对HEMS,提出了一种基于尖峰电价的家庭用电设备最优控制算法,该方法使用层次分析法(AHP)对可调整用电设
基于智能手机的人体行为识别能用于健康监控和个人运动管理,针对不同用户携带手机的位置和习惯,分析基于手机传感器获取的三轴加速度信息,从人体不同位置的行为数据中提取多种特征,优选出与行为相关度高且与手机位置相关度低的特征,构建三种决策树分类模型:(行为位置)矢量模型、位置—行为模型和行为模型,其中行为模型准确率最高;针对手机放置在三种不同位置的混合样本,其行为判断准确率为80.29%,耗时最短,能有效
随着移动网络的持续进步,基于位置的服务在日常生活中被广泛应用,同时位置隐私保护也成为广大用户所关注的焦点。基于SpaceTwist和矗一匿名算法,结合路网环境提出一种新的位置隐
针对D-S算法中折扣因子不能准确度量证据重要性和一次合成不够精确等问题进行了研究,提出一种基于迭代合成的D-S改进算法。该算法使用复合折扣因子进行证据重要性度量,并用融
隐蔽信息流检测是开发可信计算机系统中的关键问题,而状态空间爆炸是基于状态机模型检测隐蔽信息流的主要障碍。提出一种多安全级系统中基于主体安全级的二维抽象方法,在此基
为了降低应用于突发事件监测的无线传感器网络的能量消耗,设计实现了一种基于事件驱动的动态免疫分簇路由算法。将生物免疫系统的工作机制应用到无线传感器网络事件驱动的动
已有算法采用固定后备任务上限,不能动态适应负载水平变化。针对该问题,提出了基于负载均衡的MapReduce后备任务上限自适应算法。通过计算空闲节点强度和网络带宽分析系统负载水平,不断调整后备任务上限,精确控制后备任务数量,避免因过多空闲节点空载导致资源浪费或过度执行后备任务导致网络拥塞。实验表明,该算法能有效感知系统负载水平,对后备任务数量作出合理调整,并且比原算法在负载均衡和作业响应时间上有明显
协同过滤推荐系统面临着托攻击的安全威胁。研究抵御托攻击的鲁棒性推荐算法已成为一个迫切的课题。传统的鲁棒性推荐算法在算法稳定性与推荐准确度之间难以权衡。针对该问题
路径搜索是测试用例自动生成的重要环节。针对遗传算法在测试用例生成中的早熟缺陷,提出一种改进的异质协同演化算法,将种群划分成两个子种群,分别采用遗传子群和差分子群进行演化,在演化的过程中两个子种群相互协作,通过改进迁移间隔代数和迁移率这两个参数增加扰动,更加均衡遗传算法的全局探索与差异演化算法的局部搜索。实验结果表明,该算法比遗传算法和传统异质协同演化算法在生成测试用例的收敛性能方面更具优势,因此该
时间序列分割是时间序列挖掘的重要任务之一。实时数据快速变化,数据量巨大,所以如何对实时数据进行快速而准确的分割很具有挑战性。提出基于指数平滑预测的滑动时间窗分割算法