基于集成学习的不平衡数据分类方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:gzliuwei2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以机器学习为基础的人工智能领域备受瞩目且在不断影响人们的生活。作为重要的工具,机器学习成功地应用于材料性能预测、网络入侵分析、医疗检测等领域。在机器学习过程中,经常会遇到某类数据量比其他类数据量相差较大的情况,这种情况即被称为数据不平衡问题。在数据不平衡问题中,数据表现为稀疏且分布极其不均衡,目前很多模型在处理不平衡数据时,处理效果并不理想。比如在应用标准支持向量机处理不平衡数据时,通常会关注多数类而忽略少数类,最终使决策边界偏向多数类,导致分类效果不佳。然而在面对实际问题时,往往少数类更具有研究价值,因此以少数类的正确分类作为分类评价标准更具实际意义。本文以支持向量机作为基分类器,在集成学习框架下考虑不平衡数据分类的难度和复杂度,提出新的不平衡数据分类算法。具体工作如下:首先,本文在基分类器构造中将标准支持向量机修改成以高斯核函数为内核的支持向量机,并将标准的集成算法修改成代价敏感集成算法;其次本文通过修改多数类、少数类数据的误分类代价最终使多数类、少数类数据权重保持均衡,保证决策边界不偏向多数类,从而达到良好的分类性能;最后在实验分析阶段,本文选用了UCI数据库中的11个数据集,以准确率、召回率和G-mean作为性能度量指标,对提出的新算法进行评估;并进一步对新算法和现有的多种分类算法的性能进行比较。实验结果发现:本文提出的新算法表现出了良好的分类性能。我们相信本文的工作将为后续不平衡数据分类问题的研究带来积极的促进作用。
其他文献
本文研究了在特征p>3的域上限制线状李超代数的系数取自1-维平凡模的低维限制上同调.首先,本文介绍了限制线状李超代数的系数取自任意模的限制上链空间和限制上边缘算子的定义.然后,本文刻画了限制线状李超代数的系数取自1-维平凡模的1,2-维限制上同调,并给出了相应的维数.最后,本文研究了限制线状李超代数的(限制)超导子,并给出了限制线状李超代数的系数取自伴随模的1-维限制上同调.
学位
话语的生态性是指对生态系统产生影响的话语的生态取向。其相关研究呈现出从话语的语义到价值观念,从单维分析到多维分析的研究趋势。其中多数研究采用批评生态话语分析模式,本研究从评价理论的视角出发,分析英国《泰晤士报》中环境新闻话语的生态性。以Stibbe的生态哲学观作为指导,以评价理论为理论框架,从三方面展开研究:首先研究态度资源的分布特征和其中话语的生态性的体现;然后从生态有益性话语、生态模糊性话语、
学位
k近邻查询作为信息技术领域中的基本问题,被广泛的应用于各行各业。例如在信息检索中用作近似查询、在机器学习中用作分类以及在数据库、计算机视觉等领域有着不计其数的应用。随着计算机深入到各行业、各领域,数据存储更廉价、更便捷,这些特征造成了当下数据规模大、类型丰富、产生速度快的特点。这些数据特点为数据的管理、分析和利用都带来了巨大的挑战。k近邻查询技术受数据规模和数据维度的影响大,一直是大数据领域中的热
学位
为探索社区治理与建设的内生性路径,基于社区的共同体属性,研究提出“社区情绪”这一概念并就此讨论,可得出相关治理策略。社区情绪是指一定时期内社区居民的共享性心理体验,它源于社区居民所具有的共性互依的社区生活需要,通过居民间交往互动,经由情绪反应、情绪推理、情绪循环与强化等一系列心理过程而生成,为促进居民的社区认同提供了必要的情绪基础。从社区情绪的视角可以看到:一方面,居民基于对社区情绪的感受和理解,
期刊
数字签名具有保证消息完整性、可认证性和不可否认性的功能,是现代密码学研究的重要领域.为了保证数字签名在量子计算环境下的安全性,人们将量子理论应用在数字签名的设计中,量子签名应运而生.在目前量子签名中,纠缠态经常被用于协议的设计来保证协议的效率和安全性,然而,纠缠态制备的困难性使得基于纠缠态的密码协议不易实现,相比之下,尽管单光子易于制备,但会对协议的效率带来影响.局域不可区分正交直积态是一种可在局
学位
航海是人类重要的活动领域。进入21世纪以来,中俄两国在航海领域交流合作愈发紧密,航海术语研究的重要性越发突出。因为术语是科技文化交流的手段,术语一致有利于避免两国在专业交流过程中出现误区。能够为术语交流提供重要保障的手段之一便是术语词典。俄罗斯航海术语词典编纂成果丰硕,对我国来说具有一定的借鉴意义。本文以中俄两国航海术语为主要研究对象,以术语编纂、术语学和词典学等理论为依托,首先对术语编纂这一理论
学位
自俄罗斯考古学家首次在诺夫哥罗德挖掘出《家训》手稿,便证实了完整表述俄罗斯家庭教育思想的书籍资料最早可以追溯到16世纪。在《家训》之前,存在大量的有关俄罗斯家庭教育的谚语和俗语,但系统地介绍家庭教育思想,且深刻影响了俄罗斯人民生活的史实资料却只有《家训》一书。为了探究《家训》的家庭教育思想,本文对《家训》文本进行了整理分析,并拓展研究其阐述的精神内涵——俄罗斯民族意识,在此基础上考察当代俄罗斯家庭
学位
导子和广义导子(包括双导子、2-局部导子)是环和代数结构研究中的重要研究内容.近年来受到了越来越多学者的关注.Schr(?)dinger李群描述了自由粒子Schr(?)dinger方程的对称性.Schr(?)dinger李群在(n+1)-维时空中的李代数称为Schr(?)dinger代数,并且Schr(?)dinger代数是一类非半单李代数,在数学和物理中起着重要的作用.本文主要研究(n+1)-维
学位
康·列昂季耶夫(К.Н.Леонтьев,1831-1891)是俄罗斯文学中一个独特而复杂的现象。他不仅被称为“俄国第一个唯美主义者”,“欧亚主义的先驱”,“俄国的尼采”,还率先将陀思妥耶夫斯基与托尔斯泰称为“我们的新基督徒”,这一切都体现出列昂季耶夫思想的超前性。列昂季耶夫是以一名唯美主义者的身份走入创作领域的,同样也是审美感推动着列昂季耶夫走向东正教,对他而言,肯定美学的本质具有首要的地位,因
学位
心理语言学作为一门新兴的交叉学科,以语言习得和使用的心理过程为研究对象,其中言语理解的研究是语言使用的心理过程之一,也是心理语言学研究的重要方面。俄罗斯作为在世界范围内具有较大影响力的大国,其领导人发表的政治演讲始终受到国内外的广泛关注。近几十年来,国内外心理语言学中的言语理解研究主要集中在理论研究方面,同时还包括与翻译、外语教学、言语病理等实际问题相结合的研究,而对于俄语政治演讲言语理解的相关问
学位