机器学习的分类问题中不均衡问题算法研究

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:xiazaikankan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题中的不均衡问题目前是一个被国内外学者关注的(相对地)新问题。本文主要以分类不均衡问题和类不均衡问题的算法为主要研究内容,试图分别从数据预处理和模式选择这两个方面来改进和研究不均衡问题相关算法。目前解决分类不均衡问题主要基于抽样的技术,有两个相关研究方向,一个是非充分抽样技术,另一种是充分抽样技术。就一般的两分类问题而言,非充分抽样算法的主要思想是剔除样本点数目较多的那类样本点,使得两类样本点数目均衡。之前算法的主要缺点在于没能有效地利用剔除出来的样本点进行学习。本文主要基于半监督学习的思想来利用这些样本点提高算法的泛化能力。充分抽样技术的思想主要是复制样本点数目较少的那类样本点,之前的研究一直考虑数据结构是一种线性分布的情况下的复制算法。本文主要基于最小闭包球算法提出了一种充分抽样的算法来解决非线性数据结构的数据集中的充分抽样问题。本文最后根据类不均衡问题的特点,从模式选择的角度考虑,提出了一种利用η-one—class中参数 v的几何意义的算法来解决类不均衡问题。
其他文献
熵是一种信息不确定性的度量,包括随机不确定熵、模糊不确定熵以及模糊随机不确定熵等。Liu发展了不确定理论,建立了可信性理论、模糊随机理论等,提出了基于可信性理论的模糊变
即使初始条件十分光滑,双曲守恒律方程的解也可能出现间断.这种光滑性的丧失对数值算法的设计和数值解的模拟提出了挑战.有限差分算法是数值算法中一个十分重要的的热点研究
代数表示论是近三十多年来代数学的一个新的重要分支.目前,代数表示论发展的特点之一就是与代数几何的交叉和渗透.其中,沟通代数表示论和代数几何的桥梁是三角范畴(导出范畴)的