基于采样理论的机器学习方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:lainfaye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采样理论是多个学科的基础理论。通过采样方法,不仅可以获得精确推断不可行条件下的近似解,还可以基于采样方法,加速计算。大数据场景下,采样方法得到更加广泛的应用。数据不平衡问题是机器学习领域的经典问题,基于数据层面的解决思路包括数据过采样和欠采样方法。数据驱动的模型在面临真实场景下的问题时,会遇到更多的数据不平衡问题。本文的主要研究工作如下:研究数据不平衡问题对机器学习中分类模型评估指标的影响,借助可视化手段,通过实验证明分析数据不平衡问题会对模型学习带来负面作用。针对从数据层面解决数据不平衡学习问题的两种思路,过采样方法和欠采样方法,分别从理论分析和对比实验角度证明采样方法的有效性,为后续研究工作打下理论和实验基础。已经有相关研究将演化思想引入采样算法中,并结合Lévy分布提出了自适应的采样算法,本文改进了基于Lévy分布的演化采样算法,通过增加该分布α值的选择,使得候选样本的选取不会局限于极端情况,从而实现更加高效地选择。理论分析和实验表明,改进算法在收敛速率和精度上优于基于高斯分布,柯西分布,对称指数分布的演化采样算法和其他自适应的演化采样算法。针对不平衡数据集上的采样问题,在深入分析基于Lévy分布的过采样方法的基础上,认为样本比例生成函数的选择并不一定必须是Lévy分布,因此提出基于高斯分布和分段分布的数据过采样方法。其核心思想是通过构造类Lévy分布的样本比例生成函数,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以达到增强分类边界的同时减小噪声生成的目的。通过在多个数据集上的实验,表明所提算法的有效性。
其他文献
种鹅产蛋量的多少,直接影响着种鹅饲养的经济效益与育种、纯繁的进展速度。只有掌握影响种鹅产蛋性能的各种因素,在理论研究和实际生产中兼顾各种影响因子,有针对地采取综合
随着风电、光伏渗透率逐渐增大,其并网给电网稳定运行带来了诸多挑战。储能技术可以有效平抑新能源功率波动,增强新能源发电可控性,提高新能源的并网接入能力,因此在电网中配
<正> 党的十四届五中全会制定了“九五”计划和2010年远景目标。实现近期计划和跨世纪的奋斗目标,关键是依靠科技进步和提高劳动者素质、实现经济体制和经济增长方式两个具有
<正>亲爱的同学们,新年伊始,寒假已至,忙碌的你们在寒假是不是期盼着年底的大戏上演?别急,好戏即将上场咯.由《数学金刊》全体编辑执导的岁末新年贺岁大片《六脉神剑》即将上
大气汞在全球汞循环中占有极其重要的地位,对大气汞的研究是近15年来汞生物地球化学领域的热点,其中大气汞的来源又是大气汞循环演化过程研究的关键。大气汞的来源分为人为源
研究了600 mg/L PP333喷施对200 mmol/L NaCl胁迫处理下麻疯树幼苗干重、含水量、叶片细胞超微结构、光合作用、叶片渗透调节能力、叶片丙二醛含量和叶片抗氧化能力的影响。
带串补装置线路的过电压计算对750k V输电线路的设计、绝缘配合和保护都有重要的意义。本文通过建立有串联补偿装置的750k V输电系统系统暂态过程模型,以西北某750k V输电线
电力系统中,2M头与同轴电缆的焊接工艺一直是难以解决的问题,传统的手动焊接方法成品率较低,且极容易造成虚焊以及焊接不牢等现象出现,不仅造成产品的浪费,更严重时将影响到
我国反垄断法学界的主流意见认为转售价格维持应当适用合理原则。这类观点最根本的理论依据是经济理论。但无论在宏观还是微观层面,这些经济理据都存在着疏漏,而其逻辑前提更
目的研究冠修复与根管同步方案与传统方法治疗隐裂牙牙髓病的临床疗效。方法将我科106例隐裂牙牙髓病患者抽签随机分为研究组与对照组,两组均为53例,研究组采取冠修复与根管