【摘 要】
:
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等.其中少数类的样本通常具有巨大的影响力和价
论文部分内容阅读
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等.其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类.正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战.传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差.本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法.
其他文献
自从Hong等学者指出由Chen给出的关于Vague集的相似性度量方法不合理并提出改进的相似性度量方法后,很多新的改进方法被提出.文章认为Chen给出的关于Vague集的相似性度量与Ho
本文主要介绍了在加工Y形、V形坡口时,机械加工、手工气割和ABB火焰坡口机的优缺点,并针对公司目前ABB火焰坡口机加工Y形、V形坡口的工艺缺陷,提出工艺技术改进措施.通过切割
Tandem repeat在基因组成和进化中起到非常重要的作用,查找和分析Tandem repeat已经成为当前生物信息学的一个前沿领域和研究焦点.目前在这一研究领域存在多类解决方法,主要
随着社会经济的发展,我国的经济结构发生了一定的变化,一些地区充分发挥低于优势,大力发展农业,使农业经济取得了快速的发展.近年来,甘薯以其丰富的营养价值以及广泛的用途成
随着社会经济额不断发展,农业作为国民经济的基础产业,各种新技术不断革新,全膜覆盖就是一种较为成熟的新技术.采用全地面覆盖的主要作用是防止水分蒸发,同时其优势还有留膜
慢性阻塞性肺疾病是中老年人常见的一种慢性多发病,其患病人数在逐年上升,这对中老年人身心健康带来极大地影响.为此,本文以体医结合的综合干预措施的相关文献进行Meta分析,