【摘 要】
:
不平衡数据的分类是近年来机器学习和模式识别领域中的研究热点。在不平衡数据的分类问题中,某一类的样本数目远大于其他类别的样本数目,因此传统的模式识别方法难以取得良好效
论文部分内容阅读
不平衡数据的分类是近年来机器学习和模式识别领域中的研究热点。在不平衡数据的分类问题中,某一类的样本数目远大于其他类别的样本数目,因此传统的模式识别方法难以取得良好效果。本文在分析研究不平衡样本数据特点的基础上,提出针对不同的数据采样技术,再结合Adaboost算法,实现对不平衡数据的分类。论文取得的创新性成果如下:(1)针对疏采样情形,提出了一种基于样本子集优化的集成学习算法,即SPBoost。首先通过样本子集优化疏采样技术选择出多数类样本的一个子集,得到和少数类样本数量相当的样本,然后和少数类样本组合形成新的数据集,将这种采样技术和Adaboost相结合对不平衡数据进行分类。(2)针对过采样情形,提出了一种基于边界过采样的集成学习算法,即KBOSBoost。首先通过K近邻方法找到分类边界,对边界上的少数类样本进行过采样,得到和多数类样本数量相当的样本,然后和多数类样本组合形成新的数据集,将这种采样技术和Adaboost相结合对不平衡数据进行分类。论文对所提出的两种算法进行了实验论证。在不平衡数据集上的实验结果显示,SPBoost和KBOSBoost优于其他基于Adaboost的算法,表明本文提出的针对不同采样技术的集成学习方法有效的提高了不平衡数据的分类性能。
其他文献
农业作为国民经济发展的基础,是民族区域经济稳定健康发展的根本,更是国家和社会安定繁荣的的重要因素。实现农业产业化是现代农业发展的趋势,也是促进农业农村结构调整、增
随着国际生产方式出现二、三产业界限的模糊化,全球外商直接投资的2/3左右流向服务业,全球贸易自由化谈判的重心从货物贸易转向服务贸易,促进资本等生产要素的自由流通。我国
目的评估综合性心理干预对化疗期乳腺癌患者焦虑和抑郁的作用,并探讨化疗前后焦虑和抑郁对乳腺癌患者细胞免疫功能的影响。方法采用自行设计好问卷、Herth希望量表、汉密尔顿
<正>肝癌是中国常见的消化道恶性肿瘤之一,病死率高,早、中、晚期都极易侵犯门静脉,形成门静脉癌栓(portal vein tumor thrombosis,PVTT),预后极差。PVTT是肝癌细胞侵入门静
Google公司推出的开源项目WebRTC,包含端到端的音视频引擎所涉及的各项关键技术,其先进性、完整性和高性能获得广泛认可,已成为W3C的推荐标准。iLBC编码技术和NetEq缓冲技术的使
儒家以“礼”、“乐”作为教化核心,主张以礼乐治天下,礼以分等级,乐以和人情,进而礼乐兼施,表里相济。在成人问题上也是如此,故孔子曰:“兴于诗,立于礼,成于乐。”(《论语·
在不同酸性电解液中用电化学恒电位法在不锈钢基材上制备掺杂态导电聚苯胺膜,对薄膜进行了表征和性能研究。1.在不锈钢基底上制备出无机酸掺杂的导电聚苯胺膜,通过化学腐蚀实验
目的:通过测定NGF、VEGF在正常早孕妇女和有复发性流产史的早孕妇女绒毛、蜕膜组织中的表达及在血清中的水平,了解两个因子与妊娠的相关性。方法:随机选择2012年7月到2013年7月
新县增置是区域经济发展的显著表现,通过考察基层政区——县的置废增减,可以进一步分析古代地方行政管理、经济开发与社会发展等诸多微观层面的复杂变化,并可由此探讨行政建
<正>行政楼层要求提供专职管家服务, 而上海瑞吉红塔大酒店正是以提供这项服务而闻名海内外。上海瑞吉红塔大酒店是上海惟一一家为每位客人提供24小时贴身专职管家服务的酒店