C4S2-476:基于特征选择的过抽样算法

来源 :第二届中国云计算与SaaS大会 | 被引量 : 0次 | 上传用户:tsy99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的作用是不一样的,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.
其他文献
红曲霉菌的代谢产物和酯化酶等对促进白酒固态发酵过程中己酸乙酯、乙酸乙酯等酯类物质的生成具有重要作用,对固态发酵白酒的风味和品质提高具有重要意义.研究对金种子浓香型
本文研究了Multi-Power Multi-Radio 无线传感器网络中联合调度、信道和功率分配的最优路由问题,给出了该问题的形式定义和NP-Hard 复杂性证明,并利用线性规划方程设计了该问
会议
酒醅中微生物结构对白酒发酵有着重要作用,通过对两个基酒品质风格差异较大的浓香车间进行发酵过程酒醅微生物结构剖析,发现不同车间的微生物结构差异相对较小,其中两车间共
近年来,云环境在解决海量数据的高效管理方面正得到越来越多的关注.当前,有若干提供各种服务的云环境.不过,由于缺乏高效的索引结构,当前的云环境只支持简单的基于关键字的查
随着移动设备的普及和普适计算的发展,用户需求多样化,实时系统在动态运行环境中得到了广泛应用.然而,现有适应框架通常无法处理资源竞争和系统更改问题.本文提出一种基于结
会议
通过剖析知识服务的内涵和特征,梳理知识服务中存在的问题,结合云计算的特性,给出共享学习模式下知识服务的新模式.构建了知识服务云平台体系结构,设计了知识资源层、知识融
在我们白酒勾调研发过程中,常常需要同时考察3个或3个以上的试验因素,若进行全面试验,则试验的规模将很大,往往因试验条件的限制而难于实施.正交设计是安排多因素试验、寻求
目的:宫颈尖锐湿疣(CA)生长部位隐蔽,临床漏诊率较高,这成为复发和蔓延的原因,早期诊断彻底治疗宫颈尖锐湿疣有助于降低宫颈癌的发生.普遍认为人乳头状瘤病毒(HPV)与宫颈尖锐
本文提出基于星型模型扁平化编码方法的百分点聚集函数的并行算法.通过星型模型扁平化编码方法,把星型模型中维表上和查询相关的维度层次信息编码到事实表里,使得经过改写的