一种面向不平衡数据分类的组合剪枝方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:chen_chen1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。 Traditional data classification algorithms are mostly based on balanced data set creation, which reduces the performance of unbalanced data classification. Practice shows that combination selection can effectively improve the classification performance of the algorithm on unbalanced data sets. Therefore, considering the imbalanced learning problem from the perspective of portfolio selection, a new combination pruning method is proposed to improve the classification performance of the combinatorial classifier on unbalanced data. Bagging is used to establish a classifier library, directly use positive (minority) instances as a pruning set, and select an optimal or suboptimal sub-classifier from the classifier library as a target classifier through MBM indexes and pruning sets , Used to predict the instance to be classified. Experimental results on 12 UCI datasets show that compared with EasyEnsemble, Bagging and C4.5 algorithms, this method can not only greatly improve the positive recall rate of combinatorial classifiers, but also improve the overall accuracy.
其他文献
金冬瓜者,南瓜也;银南瓜者,冬瓜也。  从体型看,冬瓜与南瓜几乎没有区别,同属心宽体胖型;但南瓜与冬瓜的不和由来已久,积怨颇深。  冬瓜与南瓜虽同为一年生草本植物,但平心而论,作为菜肴,冬瓜受欢迎的程度大于南瓜。为什么?冬瓜烹饪方便,下了班进厨房,切几片冬瓜,或红烧,或清炒,或做冬瓜虾米汤,工夫不多,几碟家常小菜就上了餐桌。南瓜就不同了,得隆重,得精心,得精雕细琢:南瓜饼、南瓜粥、南瓜布丁,哪一样
进入7月,温室甲鱼价格持续上涨,一天一个价。7月11日,江浙地区温室甲鱼价格最高已经达24.5元/斤(统贷),创10年来新高。受温室甲鱼大涨影响,外塘甲鱼价格也小幅升温。目前福建地区报收
1·农业生产发展方面(1)提高稻麦种植大户直补标准对全年稻麦种植面积20亩以上的种粮大户每亩补贴30元。对种植油菜面积5亩及以上的农户,继续按实际种植面积给予每亩20元的补
麦饭石是一种天然多元素矿物质。据国家地矿部、化工部的有关专家分析化验表明,麦饭石含有钾、钙、镁、钼、锰、锌、铁、铜、硼、磷、钛、稀土等66种营养和矿物元素。为开发研
针对某办公建筑的单人及多人办公室进行了办公人员照明用电行为的调研以及照明能耗的实测,在此基础上建立了基于人行为的单人及多人办公室照明能耗计算模型,并通过实测数据验
火力发电厂主厂房属于典型的内热强度大的高大空间工业建筑.本文对主厂房室内不同高度温度分布情况、夏季建筑开口通风量、冬季门窗冷风浸入量等进行现场测试,研究了主厂房冬
实现在室内进行外窗遮阳性能的测试,需要研制一套带有太阳光模拟器的检测装置,本文主要针对遮阳设备的太阳光模拟器进行研究,根据太阳光模拟器技术要求以及比较各光源的优缺
针对部分负荷性能系数IPLV测试方法复杂且在现场测试过程中无法保证能将冷水机组卸载到指定的测试工况的问题,利用附加动量项与自适应学习速率,对传统的BP神经网络算法进行了
:针对夏热冬冷地区夹层百叶遮阳双层皮玻璃幕墙(DSF),通过虚拟百叶单元模型将遮阳系统看作一层有均匀光学参数的半透明薄层,导出了遮阳百叶在不同太阳高度角下的直射辐射光学
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制.针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法.以自由文本为抽取对象,采用两