基于样本先验分布信息的不平衡数据采样研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:xuzw93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类别不平衡问题是机器学习和数据挖掘等领域中主要关注的问题之一。特别是近些年来,随着互联网的日渐普及和大数据时代的到来,使类别不平衡问题成为了一个炙手可热的课题。通俗而言,类别不平衡问题指的是:在同一个数据集中,当一个或者多个类的样本数量远多于或远少于其它类时,就会出现类别不平衡问题。类别不平衡问题的出现给传统的分类模型造成了极大地冲击。经过科研人员孜孜不倦的努力,目前已有多种有效的算法被提出。虽然这些算法在某些程度上解决了类别不平衡问题,但是它们要么忽略了噪声点影响,要么不能适应样本的不同分布特点,因而均有一定的局限性。鉴于上述问题,本文将从样本采样的角度去解决类别不平衡问题,工作的重心放在“如何合理的去除样本中的噪声点”和“根据样本的具体分布特点来对其进行区域划分并分配不同的采样策略”。具体的研究内容可概括为以下两个方面:(1)从样本采样技术的角度去解决类别不平衡问题时,无论是过采样还是降采样都面临一个重要的问题:如何去除样本中的噪声点。本文采用的是过采样技术,去除噪声点的工作更是变得极为重要。因为一旦噪声点不能被识别并去除,会对采样过程造成极大的影响:合成出的新样本分布会受到噪声信息的影响,导致噪声进一步扩大,最后导致分类模型性能下降。本文利用高斯混合模型拟合样本的概率密度,然后分别根据样本在自身类别和在其它类别中所拟合出的概率密度相对大小来判断该样本是否为噪声点。若是,则去除该样本。实验的各项测度表明,本文提出的去噪算法更能有效的去除样本中的噪声点。(2)去噪过程完成以后,接下来即是自适应采样。首先用高斯混合模型对净化后的少数类样本进行拟合,得到各个样本的概率密度,按照从大到小排序后截取部分概率密度较大的样本命名为“安全样本”;然后将剩下的样本全部放入多数类样本中重新拟合,得到新的概率密度。按照从大到小排序后截取部分概率密度较大的样本命名为“边界样本”,剩下的全部命名为“离群样本”。这三部分样本无一重复,且实验中均设定相应的阈值。最终根据这三部分样本分布特点,采用相适应的采样算法参数来进行采样。
其他文献
物联网作为互联网的延伸,具有多种技术上的创新与突破。其中协议是物联网技术的关键,起到实现物联网设备间互联互通的作用。oneM2M作为物联网领域的重要协议,不仅制定了设备连通规范,而且对应用环境中的安全、管理等方面进行了标准制定。本文基于oneM2M协议,进行了CSE功能协作优化的研究。主要工作如下:1、调研并分析了oneM2M协议、NB-IoT协议以及架构优化技术。对oneM2M协议架构和核心CS
在汉语作为第二语言的教学过程中,学生对词汇的学习和掌握是一个一直伴随他们的重要过程,是学生提高汉语理解和表达能力的基础和关键。而教材课文作为学生学习的范本和资料,
利用先进的尿样分析仪器,量化尿样中的一些具有诊断价值的成分,是生殖系统疾病、血液疾病、脏器病变等诸多疾病的诊断及预后的必要步骤。尿样中有形成分的检验结果,是医师能
近年来,随着物联网和移动互联网的高速发展,第4代(4G)移动通信逐步向第5代(5G)演进。传统的正交多址接入方式已经难以满足未来移动通信中海量用户数据传输的需求,因此对频谱资源具有高利用率的非正交多址在5G标准化中引起了广泛的关注。在非正交多址中,来自不同用户的数据流按照一定的规则被叠加传输,这使得多用户传输系统具有更高的频谱效率和更强的接入能力。本文研究了基于空间耦合结构的非正交多址技术,在多用
【目的】探究Toll样受体4和TGF-β1在肝纤维化大鼠肝脏组织的表达以及C型钠尿肽对Toll样受体4和TGF-β1表达的影响。【方法】60只SD大鼠,随机选取其中20只SD大鼠作为对照组,
皮肤是机体免于脱水、损伤和感染的第一道防线,是维持内环境稳定和阻止微生物、化学物质等侵入的屏障[1]。皮肤组织的创伤修复及组织再生是整形烧伤及创伤外科中常见的问题及
在以学生为主体、教师为主导的教学理念下,结合启发式教学,课堂教学中的教师提问显得尤其重要。有效的教师提问是促进学生思维、评价教学效果以及推动学生实现预期学习目标的
信息结构指说话者传递信息,听话者感受信息,并且说话者对听话者的认知状态进行评估而调整信息分布的结构。焦点是信息结构的核心概念,是说话者认为所要传达的信息要点,也是听
社区结构是社交网络的重要特征,它是指网络中同一社区内部的节点连接紧密,不同社区间的节点连接疏松。社交网络的社区结构具有层次性,即:大的社区内嵌套着若干小社区。挖掘社交网络中的层次化结构,对于理解社交网络的组织结构和系统功能具有非常重要的意义。层次社区划分方法可以分为凝聚式和分裂式,其中凝聚式凭其优良特性取得了较为广泛的应用。现有的凝聚式社区发现算法往往存在以下问题:(1)将网络中的每个节点当作初始
西藏松多地区板多铅锌矿床是冈底斯中部新发现的赋存于晚三叠世花岗闪长岩体中的中型矿床,其研究对冈底斯成矿带成矿作用期次的厘定和区域成矿理论研究具有十分重要的意义,但