【摘 要】
:
传统的机器学习算法在类别分布相对平衡的数据集中通常能取得理想的分类效果,但是在现实世界中,数据的分布通常具有不平衡性,而传统的分类算法应用于这类数据集往往会出现偏
论文部分内容阅读
传统的机器学习算法在类别分布相对平衡的数据集中通常能取得理想的分类效果,但是在现实世界中,数据的分布通常具有不平衡性,而传统的分类算法应用于这类数据集往往会出现偏倚现象,从而无法得到理想的分类效果,甚至在严重情况下,其分类模型会完全失效。为解决不平衡学习问题,现有的过采样方法大多采用合成虚拟样本的方式实现多数类与少数类的相对平衡,但其面临噪声扩大,偏离分布和过拟合等诸多缺陷。基于此,本文另辟蹊径从主动学习的角度入手,期望运用真实且有价值的无标记样本来实现不平衡学习,因此本文的研究内容分为以下几个方面:1.针对现有的过采样算法以及主动学习算法应用于不平衡数据集的局限性,提出一种带有偏置的主动采样学习算法,该算法在采样过程中创新性地提出少数类置信度和样本信息量两个重要指标。2.本文提出将少数类置信度问题形式化为一基于图的半监督学习问题,其中论文提出稀疏邻域图取代传统的k近邻图,解决了传统半监督学习过程中,由于k邻域选取不当导致的欠传播或过传播问题,并由此提高了少数类采样的准确性,从而降低人工标记成本。3.针对第二个子问题,样本信息量估计,本文受MWMOTE算法启发,提出一种针对不平衡数据集的辅助决策边界构造策略,然后基于样本到该决策边界的最近距离估计样本信息量。该辅助决策边界克服了现有的主动学习算法以及过采样算法对边界定义的局限性,有效地提高不平衡学习算法对样本信息量的估计准确性。4.最后对本文算法进行实验验证,分析出本文算法不仅在主动采样过程中对少数类的标记效率较高,而且采样后的训练数据集的分类性能更优,除此之外在极度不平衡的情况下,本文算法依然能够取得较好的分类效果。
其他文献
蜡梅(Chimonanthus praecox L.)是中国古老而特有的植物物种蜡梅科的成员。它花开冬季,是含有药用化合物的观赏花木。在长期的栽培过程中,不同蜡梅品种之间形态差异分化较大,
当今世界经济迅猛发展,中国制造型企业在国内外竞争的激流之中面临着一系列不小的机遇与挑战,企业的生存与发展取决于能否取得持续竞争优势。伴随着企业管理实践的发展,立足于当前战略管理的大背景之下,传统成本管理在时间、空间等方面都表现出一定的局限性,已经无法满足企业持续发展与力争行业领先地位的需求。而战略成本管理的诞生恰恰为企业新环境下的成本管理以及取得持续的竞争优势提供了新思路。本文选取了S公司为研究对
十九大指出:“创新是引领发展的第一动力,是建设现代化经济体系的战略支撑。”可见,创新在经济社会发展中的地位是不言而喻的。但创新的过程是艰难的,个人与企业都要面对各种
投资者有限关注与行业轮动效应是近年来发展迅速的研究课题,二者领域内的传统研究方法都日趋成熟,但以往着重于个股收益率与关注度高低之间的影响关系,而鲜有涉及到行业之间
机插秧可以减少劳动成本、提高水稻生产效率,是我国当前水稻种植的主要发展方向。为改善成都平原稻作区水稻生产机械化程度不高、发展缓慢和品种选育评价不适应机械化生产等
本文主要介绍由我们主编并刚刚颁布的中国工程建设行业标准《空心钢管混凝土结构技术规程》CECS 254:2009的内容和新进展。该规程最大的特点是提出适用于各种不同截面空心钢
放射治疗是鼻咽癌的主要治疗,而鼻咽癌组织中的乏氧诱导因子-1α(hypoxia-inducible factor-1α,HIF-1α)和葡萄糖转运蛋白-1(glucose transporter-1,GLUT-1)表达与鼻咽癌患者预后的关系尚待明确。目的:观察HIF-1α和GLUT-1在鼻咽癌组织表达情况,并通过长期随访观察鼻咽癌患者预后情况,分析HIF-1α和GLUT-1在鼻咽癌患者中过表达是否
高管薪酬一直是受到学者们的广泛关注,其契约机制更是理论界和学术界研究的热点话题。结合中国正处于经济转型的重要时期,在深入推进供给侧结构性改革和“放管服”的背景下,
以V尾飞机为例,通过风洞实验分析了飞机基本气动特性与各舵面控制效率受地面效应的影响规律及原因,利用仿真对比了有无地面效应对飞机起飞性能的影响。分析发现,大展弦比飞机
目的观察2型糖尿病患者白内障超声乳化术后角膜内皮形态学的动态变化,以探讨白内障超声乳化吸除术对2型糖尿病患者的角膜内皮的影响。方法选取2017年1月至2017年12月期间于宁