【摘 要】
:
非平衡数据集的分类问题是数据挖掘领域的一个研究热点.针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,SMOTE-SV
【基金项目】
:
国家自然科学基金项目,项目编号:70971089,上海市一流学科(系统科学)项目,项目编号:XTKX2012,上海理工大学研究生创新基金项目,项目编号:JWCXSL1402.
论文部分内容阅读
非平衡数据集的分类问题是数据挖掘领域的一个研究热点.针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,SMOTE-SVM-KNN.针对传统的过采样算法盲目过采样的问题进行了研究,提出了一种基于边界分布的采样算法.该算法利用SVM得到支持向量作为边界,同时删除噪声点.针对边界上的点,计算其分布,然后按照分布对边界上的点进行过采样.在实际数据集上进行试验,并与SMOTE-SVM算法进行比较,试验结果表明该算法能够有效地提高少数类的分类准确率.
其他文献
摘 要:针对双渠道闭环供应链的问题,并且考虑第三方物流企业同时提供正向物流和逆向回收物流服务,基于博弈论的理论考虑了制造商、零售商和第三方物流构成的再制造闭环供应链中产品的批发价、销售价、直销价、回收价及回收转移价等的确定。对比和分析了集中决策和分散决策中供应链的利润情况,得出两种模式下利润的差异。为了实现系统利润最优、各方共赢,采用了费用共担—收入共享契约进行协调,并以实例进行验证。 关键词:
对大学生应用写作传统的教学模式进行了剖析,指出了应用写作课的基本性质,并根据学科的基本性质,探讨了“案例教学法”在应用写作教学中的优越性及其具体的实践环节。
以某一企业汽车燃油泵的装配线为例,针对燃油泵装配线中存在的诸多不合理现象,采用仿真实验方法来研究和改善其装配线.对燃油泵装配线从工序分配和搬运路径上进行改造,并利用
目的观察二仙汤及其核心组方仙茅-仙灵脾对乳腺增生症大鼠的治疗作用,并探讨可能机制。方法采用肌注苯甲酸雌二醇及黄体酮的方法制备乳腺增生症SD大鼠模型。将造模成功的大鼠
介绍了大型机械成套设备广义可靠性(可用性)的统计分析方法,该方法可用度(有效度)的区间估计,增长分析和验证试验方案,文中还给出了发电设备可用性的分析实例。
对三种不同制造工艺下的对焊接头进行了静力、疲劳试验,对各种焊接缺陷的影响作了综合评价,统计了三种接头的疲劳起裂位置,给出了它们的S-N曲线。
沈祖棻早期新诗的创作既充分展示其温柔的女性情怀,又充分宣扬其独立平等极具现代思想意识的爱情观念,同时继承中国传统诗词以梦写情的手法,梦成了沈祖棻"具有新创的能力".
构件中裂纹产生和发展的过程实质上也是抗力衰减的过程,本文首先在断裂力学的基础上确定了剩余抗力与裂纹扩展尺寸的关系,然后,在随机振动理论和裂纹扩展随机模型的基础上,分别考
对复吹转炉模型在各种工况下进行冷态振动试验。确定了转炉主要部件——托圈的振动为随机振动。在此基础上,将测试所得的大量动态信号进行处理、分析,用两种不同方法得到了托
现金流量表补要采用间接法编制,论述了编制现金流量表补充资料的原因,编制表的重要性及编制方法,揭示不涉及现金收支的投资和筹资数额,从而验证现金的净增减数额。