基于生成式模型的不平衡分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wkkyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡问题是指在数据集中不同类别的数据分布不均匀,而传统的分类算法是基于数据大致平衡的假设,因而对少数类数据关注度不够,忽略了它们蕴含的珍贵信息,影响分类效果。研究者分别从数据层面和算法层面提出了相应的解决方案并取得了一定的效果。其中,数据层面解决方案是作为数据预处理的一部分,其通过采样算法对数据分布进行调整使其平衡,应用范围更加广泛。但是在数据层面解决方案中,针对多数类数据进行欠采样可能会导致信息损失;针对少数类数据进行随机过采样无法保证过采样前后数据分布一致性;基于概率分布函数的过采样需要假设数据分布形式,算法受限。除此之外,单独过采样算法产生的数据仅仅保证了样本平衡性,不能确保提高分类器性能。针对以上问题,本文进行了以下3个方面的研究:针对不平衡率无法体现数据分布的问题,本文提出了一种改进广义不平衡度衡量指标,本文对广义不平衡度中计算近邻均值的过程进行距离加权,并计算正负子集均值的乘积而非广义不平衡率中的差值,提高了不平衡指标与分类结果的相关性。针对基于数据分布的过采样算法需要假设数据分布形式的问题,提出了一种基于变分自编码器的过采样方法,以变分自编码器作为数据分布的拟合函数,基于数值型的数据特征和非数值型的数据特征的分开生成的策略,生成具有数值型数据特征的少数类数据,增大了基于数据分布的过采样算法的使用范围,提高了分类器的分类性能。针对单独过采样算法产生的样本无法确保提高分类器性能的问题,本文提出了一种基于变分自编码器的过采样分类框架,使用增量型的逻辑回归分类器来对变分自编码器所生成的样本质量转换为期望分类器的分类效果,创造性地提出了生成和分类的联合训练框架,有针对性地根据期望分类器的分类效果来调整生成器的参数以确保生成样本对分类器的提升作用,将样本合成过程融合在分类器训练过程中,且不需要设定过采样率,避免不当的过采样率对分类造成负面作用。实验结果验证了基于变分自编码器的过采样分类框架,可以提高了少数类数据的F1值。
其他文献
自2000年以后,高科技民营企业的规模呈现不断扩大的趋势,为这些企业创造一个良好的市场环境尤为重要。网宿科技作为国内CDN行业的领头行业之一,对高新技术的追求显得尤为急迫。为此,核心技术人才、科研投入、专利水平、市场占有率等成为其逐鹿中原的制胜法宝。为能最大限度地激发公司员工的能力与水平,该公司自2009年上市一年后,便开始实施了股权激励。因为股权激励被视为能够有用地留住人才、吸引人才,通过促进企
光催化反应中涉及的微观粒子主要是电子和光子,目前对于单一半导体的改性主要是针对于电子而很少涉及到光子的调控。如果对光催化材料同时进行光子和电子的调控,有望继续提高
近年来,随着行政规范性文件的种类日益丰富、数量不断增加,行政规范性文件备案审查制度的重要性也在逐步突显,备案审查的制度规定与工作方式也正在不断地健全与完善。但应当注意到,当前行政规范性文件备案审查制度在法律规定、工作程序、机构设置方面仍然存在着许多不足,本文除导论和结语外,笔者从概念分析、中央和地方立法梳理、备案审查制度中存在的问题、对策建议四个部分展开研究与论述,总结当前行政规范性文件备案审查制
研究背景:胰腺癌(Pancreatic cancer)是消化系统恶性程度最高的肿瘤,其五年生存率不足5%,缺少早期诊断及有效的干预手段是导致其高致死率的主要原因。近年来,随着对肿瘤发生
20世纪90年代以来,有关出国学习的研究大量涌现,出国学习被认为是二语习得和应用语言学领域的重要组成部分。国内外的研究大多集中于探究短期或长期出国学习对学生语言习得、语用发展和跨文化能力等的影响上。然而,以往的研究绝大多数以英语学习者为受试对象,考查出国学习经历对他们的英语学习的影响,针对非通用语学习者的关注相对较少,探究出国学习经历对泰语、缅甸语和越南语等非通用语种学生自我效能感影响的研究更是匮
高速弹丸运动参数是衡量武器及弹药性能的重要指标,一直是武器系统测试的重点和难点。目前用于高速弹丸运动参数的测试测量系统多采用被动式激光光源作为照明系统,不仅对光源能量的利用率低,而且对光源能量要求高。此外,因对周边环境因素比较敏感,传统的图像处理算法对目标弹丸的识别具有极大的局限性。为了解决这些问题,本文研制了一套组合式主动激光光源照明系统,开发了一套基于深度卷积神经网络的目标弹丸智能识别算法,并
In 2020,mobile communications is considered to be one of the fastest growing parts of the communications industry.At present,the society is about to enter the stage of full popularization of 5th gener
特殊教育近年来不断受到政府的重视,而作为其中重要组成部分的听障生高等教育得到快速发展。听障大学生的课堂学习状态是影响其学习的重要一环。通过研究听障大学生的课堂学习状态,对各变量进行有序Logistic回归探索影响听障大学生的课堂学习状态的因素并建立Logistic回归方程,据此对听障大学生的课堂学习状态进行预测。本文以天津理工大学聋人工学院全体学生为研究对象,主要通过问卷调查,访谈调查等方法对40
个人破产免责制度作为能否顺利实施个人破产制度的重要保障,处在个人破产法律制度中的核心地位。本文主要运用文献研究法和比较研究法进行论文写作。首先介绍个人破产免责制度的基本概念,从历史发展的角度讨论了个人破产免责制度的发展历程。随后从法律形成角度横向考察介绍了大陆法系的德国和日本、英美法系的英国和美国以及我国台湾地区的个人破产免责立法例,为我国的个人破产立法构建提供参考借鉴。接下去笔者基于我国的基本国
浮栅型有机晶体管存储器作为有机电子器件中一种非常重要的基本单元,被广泛应用于各种新兴领域中。但是其较差的数据保持时间和稳定性限制了其进一步的商业化应用。为了解决