基于非对称加权和核方法的不平衡数据集

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:qqqq406340142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据学习是近几年来引起人们广泛关注的一类重要的有监督学习问题,数据的不平衡性存在于许多重要的实际领域,例如网络入侵检测,信息检索,医疗诊断,基因分析等。由于两类样本点数目相差较大,采用传统的分类方法无法实现对不平衡数据集的有效分类。因此,不平衡数据分类问题给当前机器学习带来了巨大的挑战。  针对不平衡数据集的分类问题,本文在如何有效提高少数类样本点分类准确率和整体分类准确率以及减少支持向量数目方面进行了系列研究,主要创新成果如下:  1,提出了处理不平衡数据集分类的两种形式的非对称加权方法,即给出了基于特征空间中线性形式双隶属度函数和指数形式双隶属度函数的非对称加权算法,考虑了不同类的重要性和不同样本点隶属度的差别。实验表明,该算法既提高了少数类样本点的分类准确率(SE),也提高了正负类样本点分类准确率的几何平均值(G-means)。  2,将高斯核函数和多项式核函数混合应用到非对称加权方法中,提出了基于混合核函数的线性形式双隶属度函数和指数形式双隶属度函数的非对称加权算法。实验表明,该算法有效减少了支持向量的数目,提高了G-means值和AUC值。  3,在特征空间中改进了保角变换矩阵的自由参数,提出了修正的基于黎曼度量的高斯核函数。给出了基于样本点到实际分类超平面距离的非对称加权算法,并将改进的黎曼度量的核函数用于此非对称加权算法中。实验表明,该算法有效提高了G-means值和AUC值。
其他文献
极小曲面是一类特殊的曲面,平均曲率处处为零,且除去有限点外高斯曲率恒为负.独特的的几何性质和曲面造型,使得极小曲面在建筑外观设计、飞机轮船制造、材料科学、3D打印等方面有着广泛的应用.本文基于曲率流研究了一种新的离散极小曲面生成算法.Plateau问题是一个十分经典的曲面造型问题,给定空间闭合曲线C,寻求以C为边界的面积最小的曲面.以往的求解方法大多是从面积泛函和Dirichlet能量函数入手建立
学位
追求最优目标是人类的理想,随着现代化科学技术的进步与发展,最优化问题越来越受到人们的关注和重视,现在最优化问题已渗透到生产、管理、商业、军事、决策等各领域。而最小二乘
从数学建模的角度上研究能使甘油以较高转化率生产出1,3-丙二醇(1,3-PD)的方法不断地成为海内外学者研究甘油发酵过程的重点关注方向。本文以这一复杂生物过程,即甘油在克雷伯氏杆菌(K.pneumoniae)催化作用下发酵而生成1,3-PD的过程为研究背景,一是对连续发酵一类基因调节动力学与酶催化动力学混杂动力系统做参数识别,二是对连续发酵一类带路径参数的两种动力学混合系统进行路径识别与参数识别。
本文研究了带有分数阶微分方程为主要约束的最优控制问题的数值求解方法以及微生物发酵分数阶动力系统的建模及其参数辨识问题.首先,在Caputo导数的意义下考虑分数阶最优控制问题,利用控制参数化方法进行数值求解,给出了对应的协态方程及梯度计算公式,分析了算法的收敛性,并用具体的数值算例说明算法的有效性,这一工作是首次利用控制参数化方法对分数阶最优控制问题进行求解,是具有一定开创性的研究成果.其次,对所研
本文主要研究了非线性项带有导数的梁方程的平衡点在环面上的稳定性.共分为如下七部分:  第一章,首先我们介绍一下梁方程和Nekhoroshev型定理的起源和发展,并简要介绍研究关于
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
为明确秸秆集中掩埋还田对麦田养分淋失的影响,以期为秸秆掩埋还田提供理论依据,开展了桶栽模拟试验,试验设置了H1:麦秸20 cm埋深(5 kg m-2埋量)、H2(L1):35 cm埋深(5 kg m-2
本文研究了非线性反问题的稀疏约束正则化方法。由于反问题的不适定性,数值结果对数据比较敏感,而观测数据中大量测量噪声的存在,必须通过正则化方法处理,而稀疏约束正则化方
本文分为两部分,探讨拓扑动力系统中有关拓扑熵和重分形分析的一些问题.第一部分定义amenable群作用动力系统的拓扑条件熵,并给出相应的变分原理.第二部分证明自共形测度在开集