基于半监督聚类的不平衡分类算法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:yongshuai520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类别不平衡数据集的分类问题是机器学习领域的一个研究热点,也广泛存在于实际工程领域,如医疗诊断、垃圾邮件识别和网络入侵检测等。传统的分类算法以最小化整体错误率为目标,在处理类别不平衡数据集时会导致少数类样本被错分的决策面偏斜现象。但在许多现实问题中,正确识别出小类别样本往往更为重要。如何在保持大类别样本准确分类的前提下,提高小类别样本的识别率,是不平衡分类的关键问题。此外,类内不平衡以及训练样本不足等问题给不平衡分类带来更多挑战。半监督聚类利用少量的标注样本来指导聚类过程,可以有效地揭示数据的分布特征,从而为不平衡分类提供有价值的信息。本文研究了半监督聚类的算法设计及其在数据层面对不平衡分类中的改进,并进一步研究了在算法层面利用后处理策略来提高不平衡分类性能。主要研究内容如下:(1)研究了一种基于CS-K-Means的不平衡分类算法。过采样是解决不平衡分类的一种主流技术。当前过采样算法大多是基于原有训练样本进行的,难以揭示更多的数据集分布特征。本文提出了一种改进的半监督聚类算法CS-K-Means,从无标签样本中选择少数类的伪标签样本。这种新型的过采样方法更好地实现了类别再平衡,并有助于解决训练样本不足的问题。其次,融合半监督聚类结果和分类结果进行最终的预测,进一步提升算法的泛化性能。实验结果表明,该算法在多个数据集上的不同评价指标下均优于对比的前沿算法。(2)研究了一种基于半监督层次聚类的不平衡分类算法。类分解是近年来不平衡分类领域的一个新兴研究方向。当前相关算法都是通过在训练样本上进行无监督聚类来实现类分解,样本的类别信息并没有被合理利用。此外,如果训练样本不足,类分解的效果会很差。本文提出了一种半监督层次聚类算法(SSH-KMeans),利用训练样本和无标签样本的分布特征来实现逐层类分解。其中多数类的分解有利于减少类间不平衡率,而少数类的分解有助于识别小集群,减少类内不平衡率。此外,SSH-K-Means也被用于选择伪标签样本来实现训练集的再平衡,并辅助分类器进行最终的类别预测。实验结果表明,SSH-K-Means的类分解策略对于缓解类别不平衡现象有着重要的作用:在分解后的数据集上,本文所提算法相对于同类算法有着明显的性能优势。(3)研究了一种不平衡分类的后处理策略。传统不平衡分类算法大多集中在对数据集进行预处理或者对分类算法进行改进。本文提出了一种对分类结果进行后处理的策略:根据类别比例这一先验知识对原始分类结果进行调整,使其具有相近的类别分布。该方法代价低且通用性高,可以适用于现有的不平衡分类算法。特别地,为了减少基于单一分类器来调整类别比例的风险,提出了一种紧凑最近邻算法(CPNN)来辅助后处理。在多组公开数据集上的实验结果证明,本文方法既可以提高传统分类算法也可以提高不平衡分类算法的性能,在各个评价指标上都取得不同程度的提升。
其他文献
随着第五代(Fifth Generation,5G)移动通信技术的快速发展,对于信息的高传输速率和低延时性能要求也越来越高。同时1G-4G移动通信发展占用了较多的低频段频谱资源,造成低频段拥挤,5G移动通信发展逐渐具有高频化的特点。因此具有极宽频谱资源的毫米波频段引起越来越多研究学者的关注,具有广阔的应用前景。同时,由于5G移动通信的高频率、宽频带,所需的PCB结构越来越精密和复杂,多层PCB结构
学位
特征选择是机器学习中关键的数据预处理技术,其主要目标是降低数据维数和提高学习性能,所以特征选择问题本质上是一个多目标优化问题,并且基于空间分解的多目标粒子群优化(MOPSO)是解决该问题的有效方法之一。然而,现有的很多基于空间分解MOPSO的特征选择方法仍存在一些问题:一方面,不平衡的选择压力会导致非支配特征子集的数量较少且围绕于Pareto前沿中心;另一方面,缺少对特征选择Pareto前沿高度离
学位
近年来,随着云虚拟现实(Virtual Reality,VR)技术快速发展,使得用户不需要在本地部署昂贵的PC用于VR应用的运行,解决了长久以来制约VR行业发展的难题,目前已经成为新一代信息技术发展的热点与焦点。由于云VR系统不仅需要在云端实现对应用场景进行渲染并保证用户间实时交互,同时还需存储海量的应用相关的数据信息,如模型数据及音频数据等,因此,如何对云VR环境下计算及存储资源进行有效的管理调
学位
目的:鼻咽癌(Nasopharyngeal carcinoma,NPC)是一种发生在鼻咽上表皮里的非淋巴瘤性鳞状细胞癌,在中国南方和东南亚是一种常见的肿瘤,其发病率目前仍在增加。由于70%以上的鼻咽癌病例是在疾病的局部晚期被诊断出来的,因此鼻咽癌患者的死亡率很高。尽管放疗和化疗作为主要治疗手段被广泛使用,但大约30-40%的病例最终会发生远处转移,这成为成功治疗的主要障碍。因此,迫切需要研究鼻咽癌
学位
肝素酶Ⅲ是一类可作用于糖胺聚糖的多糖裂解酶,可特异性切割连接葡萄糖胺和葡萄糖醛酸之间的β(1,4)糖苷键,从而降解肝素、硫酸软骨素A(chondroitin sulfate A,CS-A)等糖胺聚糖,产物主要为不饱和二糖。肝素酶Ⅲ的主要功能为生产低分子量肝素、肝素的结构解析以及消除体外循环中多余的肝素等。本课题筛选了两种不同细菌来源的肝素酶Ⅲ,构建重组表达载体,并在大肠杆菌中进行可溶性表达,优化表
学位
报纸
Android智能手机已经成为人们生活中不可或缺的一部分,但同时恶意软件的出现也给移动用户的隐私安全和财产安全带来了潜在威胁。为维护移动互联网安全给用户提供一个安全可靠的使用环境,学术界和产业界对恶意软件检测进行了深入研究并取得一系列优秀的成果。但是该领域目前仍还有一些工作需要进一步深入研究并予以解决,例如单一检测模型泛化性差和单一特征不能全面表征恶意软件特性以及覆盖率低。因此本文针对以上两个问题
学位
安卓平台的流行性和开源性使其成为恶意攻击者的首选目标。恶意软件作为当今威胁网络安全的首要影响因素,近年来数量剧增且攻击形式多变。因此,精准识别出恶意软件对于保护用户经济安全和隐私安全至关重要。本文围绕安卓恶意软件检测领域中两个充满挑战性的难题,即高质量特征提取和自动化特征学习模型的构建,本文针对这两个挑战进行深入研究并提出了针对性的改进方案。本文的主要工作如下:(1)基于多类型特征和CNN的安卓恶
学位
特征选择作为一种数据降维的有效方法,在处理高维数据时可以提高分类效果和降低计算成本。特征选择本质上是一类寻优搜索问题。在其众多寻优算法中,粒子群优化凭借其优良的全局搜索能力得到广泛应用。然而,大多数基于粒子群优化的特征选择方法忽略不同数据集的特征之间具有不同的相关性,导致特征子集冗余特征较多、易陷入局部最优以及高维数据中搜索难度较大的问题。因此,本文采用自适应策略将数据集的特征相关性信息运用到动态
学位
随着通信技术的发展,越来越多的人使用互联网进行工作或者娱乐,而网络监管却对用户的隐私产生了很大的威胁,可能会暴露用户敏感信息。Tor匿名网络是一个广泛使用的低延迟匿名通信网络,能够帮助用户在网页浏览的时候隐藏通信双方的IP地址和通信内容。但是,大量研究证明Tor无法抵御网站指纹攻击技术,攻击者通过操纵用户产生的流量发现其访问的网站模式,然后获取用户所访问的网站信息,对用户隐私和网页安全都造成了很大
学位