基于因子分解机的不平衡数据分类算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:lanbour156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习中一个重要的任务,分类算法通过函数的判断给出输入数据的类别,根据数据的预测类别不同,分类问题可以分为多分类和二分类问题。一些经典的分类算法通常是在数据集平衡的假设基础上提出的,即输入的数据集样本中不同类别的样本数是相同的。但是在实际应用中,许多数据集是不平衡的,而有时少数类会显得更加重要,错分少数类会造成比较严重的后果,例如医学数据分类,银行客户信用评估等。一些以总体精确度为学习目标的传统算法在不平衡数据集分类上表现不佳,因此提高分类器对不平衡数据集的分类效果非常重要。因子分解机(Factorization Machine,FM)是一种基于矩阵分解的算法,它的提出主要适用于解决稀疏数据特征组合问题。FM最大的特点是在线性的基础上同时引入了二阶多项式。由于矩阵分解,FM也能够从稀疏数据中学习到隐藏的特征向量间的关系,使其对稀疏的数据具有很好的学习能力。FM同时具有线性复杂度,这种特点也允许FM更快的训练数据。基于FM,本文将对其在不平衡数据集二分类问题上进行扩展与应用,成果如下:(1)提出了一种基于不平衡分类间隔的因子分解机算法。算法核心思想是在FM中采用合页损失(Hinge Loss)函数和坡道损失(Ramp Loss)函数来训练不平衡数据集,同时引入新的超参数间隔点和截断点。间隔点为错误分类的正样本和负样本提供不同的惩罚系数,以降低分类超平面的偏移度,从而使模型具有可控的分类空间。数据集中的噪音点会影响算法的训练,截断点能够对噪音点进行截断,减少其对模型训练的影响。(2)提出了面向可控分类空间的坡道损失函数超参数自优化算法。在引入不平衡分类间隔之后,模型新增加了超参数,这意味着我们在算法训练时必须手动指定更多的参数值,增加了人工调整模型参数的时间成本。基于此,在模型引入坡道损失函数后,我们对新增的超参数进行了处理,使其在模型训练时能够自我调整,实现自动优化,大大减少了调参所需的时间。(3)实验验证与结果分析。本文选取了 6个UCI上的不平衡数据集进行实验,实验结果表明基于不平衡分类间隔的FM训练效果总体上要好于传统分类模型,且坡道损失函数对噪音点进行了截断,分类效果高于引入合页损失函数后的FM。面向可控分类空间的坡道损失函数超参数自优化算法在不平衡数据集上的训练优势明显,不仅减少了模型中新增超参数的调参工作,而且获得更精确的超参数值,提高了分类效果。
其他文献
面对纷繁复杂的市场环境,房地产企业如果想要保持竞争力,在激烈的竞争环境之下得以生存,就必须使自己做出改变,最重要的是一定要做出创新,从而能够提高自己的核心竞争力,同时要制定相关的制度,加强自己的内部管理水平,使企业紧跟时代的步伐,创造自己的价值。作为目前非常重要的管理手段之一,全面预算管理被许多公司加以运用,在增加公司收益方面,取得了非常显著的效果。随着时代的变化,随着社会环境的改变,随着经济环境
随着无线通信技术的不断发展与物联网(Internet-of-Things,Io T)需求的不断提升,未来Io T的一个主要特征是网络中含有大量的用户设备,并需要利用低延迟的海量物联网设备进行数据传输,这给信号处理领域带来了许多新的研究挑战。针对物联网的出现,在第五代移动通信系统(5th Generation,5G)的未来规划中已经确定了海量机器类通信(massive Machine-Type Co
21世纪以来,互联网技术迅猛发展,计算机已经完全融入人们生活的方方面面。随着人们日益增长的物质和文化需求,软件作为计算机系统的灵魂,其种类更加繁多,规模更加庞大,架构也更加复杂。与此同时,由软件质量引发的一系列安全问题也越来越严重,安全可靠的软件已经成为软件开发的标准。软件度量一直是软件工程领域保证软件质量的有效手段,主要从复杂性、可靠性、可维护性等角度进行度量评估。然而,目前大多数的软件度量研究
运动想象是脑-机接口的经典范式之一,近年来因其对神经可塑性的促进作用,作为脑卒中后运动功能康复研究领域的新方法受到广泛关注,并对脑卒中后运动功能障碍后遗症的康复有着
变异测试是一种基于故障的软件测试分析技术,它通过向被测程序注入一组人工故障(称为变异体),从而模拟程序的故障行为,并评估测试集的充分性。在实践中,工程师们希望使用无法
在我国,可持续发展理念是我国现阶段的战略目标和指导原则,国有林区的经营模式得到了有效的转变,林区经济建设得到充分的发展。东北地区是我国国有林区的主要分布地,是国家生态环境建设的重点地区以及生物多样性保护的栖息地,延边州汪清林业局更是东北国有林区急需保护的重点森工企业之一。文章先对国内外文献进行梳理,以多种经营和林业经济界定相关概念,以生态经济学理论和可持续发展理论为文章的理论基础,对汪清林业局的林
旅游消费的形式和内容正在发生变化,民族旅游的发展也催生出民族文化旅游空间的产生。居民是人地关系中的重要要素,民族旅游地居民对旅游空间的感知一定程度上反映了该旅游空
本文以保定天威的案例讨论分析了债券违约风险评估及处置等方面的问题。作为国内第一例国企违约,该案例对于中国债券市场具有里程碑意义。本文旨在发现并理解国企相对民企而
当今环境问题日益严重,尤其是塑料包装物导致的白色污染已蔓延各地。壳聚糖(CS)和聚乳酸(PLA)作为天然和合成生物可降解高分子材料的典型代表,它们的开发和应用是保护环境的有效途径之一。然而,CS强度低和PLA脆性大的不足严重限制了它们的应用。纤维素纳米晶体(CNCs)是一种来源丰富的生物基纳米材料,因具有高结晶度、高强度、高杨氏模量、高比表面积比等优势,非常适合作为高性能聚合物的改性材料。因此,本
海洋经济是我国经济的重要组成部分。由于海上气候环境多变,无线电系统成为海上作业船只安全的重要保障。随着物质生活水平的提高,海上作业人员对船载无线电系统的需求除了传统的语音通信与安全保障以外,对于多媒体传输、互联网业务等方面的需求也不断增加。这就需要船载无线电系统有更宽的通信带宽与更强的运算处理能力等。考虑到海上通信环境无固定基站且船只具有移动性,因此海上非常适合搭建Ad hoc网络。本文首先介绍了