面向类不平衡问题的逻辑回归分类学习算法研究

来源 :信阳师范学院 | 被引量 : 1次 | 上传用户:rui1986911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类不平衡问题是模式识别和机器学习领域的热门研究问题之一,其特征是某些类实例数明显少于其它类实例数。在实际应用中,正确识别少数类实例往往比正确识别多数类实例更有价值。例如在医疗诊断中,只有极少数人是癌症患者,如何正确识别这些癌症患者具有重要意义。然而,作为经典的统计分类方法,逻辑回归试图通过假设数据集中各类的实例数目相当,以达到总体高准确率的分类目的。这往往导致学习到的模型不能很好地捕获少数类实例特征,进而误分少数类实例。针对该问题,本文提出了两种面向类不平衡问题的逻辑回归分类学习算法:(1)提出新的针对类不平衡的逻辑回归学习算法。逻辑回归使用最大似然估计法求解模型参数,这导致模型很难捕获少数类实例特征。针对该问题,本文构造了一种基于最大似然函数和召回率的度量指标MLER(Maximum Likelihood Evaluation and Recall)。与最大似然目标函数不同,MLER同时考虑模型的准确率和召回率,进而保证模型在所有类上的性能。根据MLER,本文提出了一种面向类不平衡问题的逻辑回归新算法LRIL(Logistic Regression for Imbalanced Learning)。依据MLER,LRIL使用牛顿法学习相关参数。实验结果表明,LRIL在保持逻辑回归高准确率的前提下,有效地提高了其在召回率、f-measure以及g-mean上的性能,同时与其它高级方法相比,LRIL也表现出明显优势。(2)针对类不平衡问题中类分布不均衡这一特征,提出了基于k-means和逻辑回归混合策略的类不平衡学习算法ILKLR(Imbalanced Learning based on k-means and Logistic Regression)。不同于传统的逻辑回归方法,ILKLR采用k-means算法将多数类数据集划分成多个子簇并关联新的类标号,进而达到训练集线性可分的目的。实验结果显示,本文提出的数据预处理方法比传统逻辑回归、欠抽样逻辑回归、过抽样逻辑回归等方法在召回率、g-mean和f-measure等指标上效果更优。
其他文献
竞争可以促进银行业微观运行效率的提高及其他方面的好处,但竞争也可能会影响银行体系的稳定性。因此,银行体系需要通过建立健全市场运行规则监管主体、完善竞争主体公司治理
由于蒸汽中二氧化硅含量超标,造成空分设备配套汽轮机叶轮和流通部件结垢,导致汽轮机负荷下降,影响空分设备的正常运行。采用低压饱和湿蒸汽蒸煮的方法清除垢物,使汽轮机的负
目的:利用pEGFP质粒载体构建介导结缔组织生长因子(CTGF)短发夹RNA(short hairpin RNA,shRNA)表达的质粒.方法:分别设计3对有小发夹结构的两条DNA序列,经退火成互补双链,再克
小学数学教学的创新顺应了新课改的发展潮流,适应了新时期人才培养需求。因此,在小学数学教学活动中,发展创造性思维去引导学生创造性学已是素质教育的核心内容。
<正>在欧洲、美洲、亚洲,甚至非洲许多国家,咖啡文化正在以常人难以想象的势头,跨越种族、文化和地域的障碍,成为全球民众社交的头号利器。
期刊
当前,外资并购已成为外商在我国直接投资的主要方式之一。跨国并购,在带来资金、技术、市场及先进的管理方法的同时,也不可避免地带来一些负面影响。本文从理论与现实出发,通
评价了国内外控股股东的行为效率,设计了控股股东的行为评价系统,实证分析了我国上市公司控股股东行为效率与公司绩效的关系,得出了控股股东行为正外部性增强有利于改善公司
全面预算管理起始于20世纪初的美国。最早是被应用在杜邦公司、通用电器等一些大型企业。被证实为是一种很好的管理会计方法,能够有效提高企业整体管理效率。在经济发达的地
为论证波形钢腹板组合箱梁桥采用节段预制拼装工艺进行施工的可行性,设计制作了两榀波形钢腹板组合箱梁节段进行足尺模型试验,两榀梁分别采用不同的入模工艺(分部入模、整体
为研究初始几何缺陷和焊接残余应力对正交异性板动力特性的影响,以港珠澳大桥江海直达船航道桥为工程背景,运用有限元软件ANSYS建立正交异性板的空间板壳计算模型,采用子空间