非均衡数据处理算法的研究与应用

来源 :江苏科技大学 | 被引量 : 3次 | 上传用户:Waaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机科学和电子通信技术的发展,人们已经进入了大数据时代。原始数据的数据量以及数据种类的爆炸式增长,使各行各业对数据处理技术的需求极为迫切,为数据挖掘和机器学习提供了巨大的机遇。传统的算法都建立在数据集类分布均衡以及误分代价相等的基础之上,但在实际任务场景中,我们需要处理的绝大部分数据都是非均衡的,例如指纹识别、面部识别、面部年龄估计等。因此对非均衡数据分类算法的研究已成为机器学习和数据挖掘领域的热点。本文主要研究非均衡数据的处理算法,并且从以下三个方面开展研究工作:首先,传统算法在处理非均衡数据时通常仅考虑数据的空间分布而忽略空间距离,针对这一不足,本文提出基于K-means和改进MaxDistance规则的集成方法。该方法结合了原始数据的空间分布和空间距离的特点,在不丢失任何有用信息、不增加任何人造数据的条件下将二类非均衡问题转化成均衡问题。与现有的二类非均衡数据处理算法相比,实验证明了此方法在处理相同的标准公开数据集时具有更好的分类效果。其次,本文提出一种基于特征权重和聚类方法相结合的欠采样算法—Uscfk算法。该方法针对二类非均衡数据,通过将对分类结果影响较大的特征权重值增大的同时将对分类结果影响较小的特征权重值减小,使其在与K-Means方法结合使用时能够抽样得到比较适合分类的多数类数据。具体来说是提出了一种改善特征权重赋值的方法,抽样出更有利于分类决策的样本数据,并将其与聚类算法相结合以构建出针对非均衡数据的分类模型,最后将此算法在KEEL数据集上进行实验,结果证明该方法不但提高了分类器对于非均衡数据的分类性能且鲁棒性强。最后在机器学习经典数据集wine数据集上对本文提出的算法进行了验证,通过与传统分类算法的对比,本文算法可以有效提高分类效果,而且在葡萄酒分类中的应用也展现出不错的性能。
其他文献
随着环保要求的目益提高,硫磺回收及成型技术不断创新。着重介绍了空气成型工艺、结片工艺和造粒工艺等成型技术,对比了各自的优缺点。最后为国内的硫磺成型技术的发展提出了合
美国和俄罗斯在中东地区的博弈,不仅持续时间长、竞争方式多样以及各方牵扯利益复杂,其中充斥着激烈的较量与角力。叙利亚化武危机爆发之后,美国和俄罗斯围绕化武危机展开了
分析了日本巴工业T&H离心机在PVC行业的应用成果,实现了PVC企业生产的大型化和高效化发展,提高装置的生产效率和可靠性,实现了节能降耗和清洁生产。
目的探讨B超在先天性直肠肛管畸形分型诊断中的可行性及意义.方法应用百胜AU-4型彩色超声仪对30例先天性直肠肛管畸形进行分型诊断.结果本组30例患儿超声检查直肠盲端距肛穴
研究以废油酯为原料在固体酸催化作用下与丁醇酯交换反应制备脂肪酸丁酯的过程,采用气相色谱对脂肪酸丁酯的含量进行分析。考察了醇油摩尔比、催化剂用量、反应温度和反应时
研究用户优化服务算法问题,应为用户提供个性化的推荐服务的系统。Top—N推荐问题,是指通过对用户历史偏好信息的挖掘,给每个用户推荐N个最可能喜好的内容。针对上述问题,提出了
目的:比较锁骨下静脉置管术和PICC置管术在肿瘤治疗应用中的优缺点,从而根据-临床需求选择较合适的静脉置管方法。方法:对327例肿瘤化疗病人分别采用锁骨下静脉置管术和PICC置管
对传统的化学镀银工艺进行了改进,化学镀银层质量与、镀膜温度、还原剂的加入方式以及膜面积与镀液加液量之比有着密切的关系。实验结果表明控制镀膜温度(20℃以下),采用间歇式
目的:通过比较不同程度瘢痕患者和健康对照组的细胞免疫和体液免疫的差异,分析瘢痕患者免疫功能状态,探讨瘢痕可能的免疫学发生机制。方法:101例瘢痕患者分为三组:轻度瘢痕组、
以扎龙湿地为研究对象,利用SEBAL模型结合ETM+遥感影像、DEM及研究区附近12个站点的气象数据,反演得到净辐射量、土壤热通量、感热通量等地表能量通量;然后通过能量平衡方程得到