基于DPC聚类重采样结合ELM的不平衡数据分类算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:rtpy1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类
其他文献
对于稀疏信源的欠定盲分离问题,混合矩阵的估计是至关重要的。为了提高估计性能,提出一种组合的聚类分析算法。首先,利用短时傅里叶变换把时域中的观测信号转变成频域中的稀疏信号,并通过数据的归一化把稀疏信号在频域的线性聚类转变成致密聚类。然后,利用相似性传播AP聚类方法搜索每个观测数据的邻域自动形成数据族的数量和相对应的关键数据。最后,以AP聚类的结果作为K-均值算法的初始值,对每类(族)数据的聚类中心进一步修正。仿真结果表明,组合聚类法能有效地提高混合矩阵的估计精度。把AP聚类和K-均值算法相结合的另一个优势是
近年来,带有位置和文本信息的空间-文本数据的规模迅速增长。社交网络中的社交数据和移动互联网中的交易数据等都是空间-文本数据的重要来源,这些数据具有海量、异构、多维等特点。以空间-文本数据为背景的空间关键字查询技术目前得到广泛的研究与应用,给定一个查询位置(用经度和纬度表示)和一组查询关键字,返回距离查询位置最近且与查询关键字相关性较高的空间对象。对空间-文本数据的相关查询技术进行综述,主要包括查询处理模式、索引结构、语义近似查询、基于路网的查询、路线规划查询、基于社交网络查询、基于影响约束下的查询等。
糖尿病视网膜病变是世界上致盲率最高的眼科疾病,早期诊断可以显著降低患者失明的概率。深度学习方法可以提取医学图像的隐含特征,并完成图像的检测任务,因此应用深度学习实现糖尿病视网膜病灶检测成为研究热点。主要从数据集介绍、全监督检测方法、非完全监督检测方法、小样本问题的处理和模型可解释性五个方面进行详细总结,重点整理各类方法的基本思想、网络结构形式、改进方案及优缺点总结等内容,结合当前检测方法所面临的挑战,对其未来研究方向进行展望。
注意力机制因其优秀的效果与即插即用的便利性,在深度学习任务中得到了越来越广泛的应用。主要着眼于卷积神经网络,对卷积网络注意力机制发展过程中的各种主流方法进行介绍,并对其核心思想与实现过程进行提取与总结,同时对每种注意力机制方法进行实现,针对同型号辐射源设备实测数据进行对比实验与结果分析,并依据主流方法的思想与实验的结果总结并阐述了卷积网络中的注意力机制的研究现状与未来其发展方向。
代码表征是对代码数值化的一种技术,把代码映射为一组连续的实值向量,提取隐藏在代码内部的属性,辅助程序员生成或分析代码,是代码克隆、代码推荐、代码剽窃等软件工程任务的核心技术和研究热点。研究者们对代码表征方面进行了一系列研究,根据源代码抽取信息的方式,分为基于文本的表征、基于语法的表征、基于语义的表征和基于功能的表征;根据表征粒度的大小,分为基于词汇的表征、基于语句的表征、基于函数的表征等不同等级;根据表征方法的不同,分为基于统计的模型、基于自然语言的模型和基于深度学习的模型。对近几年基于深度学习的代码表征
针对差分进化算法常见的早熟收敛、搜索停滞和求解精度低的问题,研究一种精英化岛屿种群的差分进化算法(EIDE)。为了实现全局搜索与局部搜索能力并重,EIDE划分多个岛屿种群,根据迭代时的适应度情况,动态地将岛屿种群分类为精英岛屿和普通岛屿;针对精英岛屿,提出一种控制参数自适应方法,依据岛屿适应度情况,自适应地调整变异概率与交叉概率,同时算法利用增强局部搜索的变异策略,提高收敛速度与精度;针对普通岛屿,使用适合全局搜索的变异与交叉概率及变异策略,维护种群多样性。EIDE提出了一种可控的“移民”与“个体迁移”策
在视觉SLAM中,特征点的提取和准确的特征匹配对机器人的位姿推断具有重要作用。针对传统ORB算法特征点分布不均匀,容易出现簇集的问题和Qtree_ORB算法特征点过均匀等问题,提出了一种基于四叉树改进的ORB特征提取算法。对每层图像金字塔进行自适应网格划分,采用自适应阈值来进行特征点提取;根据每层图像金字塔所提取特征点数目对四叉树的划分深度进行限制,减少冗余特征点;设定最小阈值来减少低质量特征点的提取;在Mikolajczyk数据集上对改进算法的均匀度和匹配性能进行测试,在TUM数据集上对改进算法在ORB
在目标检测中,框回归损失函数的设定直接影响预测框的定位准确性。预测框与目标框的交并比(IOU)被设定为优化预测框的损失函数,但是当两框无重叠面积时无法进行梯度回传。广义的交并比(GIOU)在IOU损失函数的基础上增加非重叠面积部分,将两部分优化项作为损失函数调整预测框位置,解决了无法梯度回传的情况。但当两框是包含关系时,GIOU的第二部分优化项消失,损失函数退化为IOU。为了解决以上问题,提出了一种重新定义的广义交并比损失函数(RGIOU),将非重叠部分面积定义为两框之并减去两框之交,再除以两框形成的最小
针对密度峰值聚类算法DPC(clustering by fast search and find of density peaks)时间复杂度高、准确度低的缺陷,提出了一种基于Ball-Tree优化的快速密度峰值聚类算法BT-DPC。算法利用第k近邻度量样本局部密度,通过构建Ball-Tree加速密度ρ及距离δ的计算;在类簇分配阶段,结合k近邻思想设计统计学习分配策略,将边界点正确归类。通过在UCI数据集上的实验,将该算法与原密度峰值聚类算法及其改进算法进行了对比,实验结果表明,BT-DPC算法在降低时间
针对受灾山区运输物资的三维无人机路径规划问题,提出了一种精英扩散蚁群优化算法EDACO,首先通过极值限定策略限定了信息素浓度的范围,防止算法前期陷入局部最优;然后采用精英策略改进信息素浓度更新公式,加强优质个体对种群的影响力;再引入信息素扩散策略,加强距离较近个体间的交流协作,以防止蚂蚁个体间联系不紧密造成的算法停滞。最后,将精英扩散蚁群优化算法、传统蚁群算法、遗传算法和萤火虫算法运用于4个山区受灾无人机运输实例中,结果表明了EDACO的优越性和有效性,且该算法对无人机三维路径规划问题有着良好的适应性。