不平衡数据的模糊分类集成方法的研究

来源 :江南大学 | 被引量 : 1次 | 上传用户:yourzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TSK模糊模型是众多模糊模型之中最具影响力也是应用最广泛的一种,它具有高可解释性和强大的逼近能力,已经在很多领域得到了成功的应用。但是,在实践中,模糊模型的性能取决于可用数据的数量和质量,需要充分的训练才能获得较好的泛化能力,而集成学习为构建模型提供了一种有效的方法,它通过结合多个学习器来完成学习任务,通常可以获得比个体学习器更加优越的泛化性能。但是当数据不平衡时会导致系统的训练精度下降,泛化能力差。由于少数类样本数量太少,导致模型的准确率更加偏向于多数类,然而现实中存在大量不平衡的数据,这些数据训练错误的代价往往是巨大的,因此提高少数类的训练精度至关重要。因此本文的主要研究对象为不平衡数据的模糊分类集成问题。不平衡数据是指不同类别的训练样本数量差别较大,其中数量较多的叫多数类,数量较少的叫少数类。在现实的医学、经济、工业等分类任务中,类别不平衡的问题广泛存在,如医疗疾病诊断、欺诈交易检测、故障零件检测、自然监测等,这些情形下,数据如果没有人为调节平衡,在使用传统的分类方法时,虽然有利于多数类别的分类,却影响了少数类别的识别,少数类因为数据缺失等原因而使数据的质量大幅降低,导致分类的准确率偏向了多数类,严重影响了分类精度,即便对多数类分类的正确率很高,也无法保证少数类样本的正确率,而这恰恰是需要关注的重点,因此需要使用采样方法来解决不平衡数据的分类问题。在采样方面,Synthetic Minority Oversampling Technique(SMOTE)是一种经典的过采样算法,它基于“插值”为少数类数据生成新样本,从而改变不平衡比例,但它也有相应的缺点,如随机生成样本比较盲目,生成的少数类样本容易与周围的多数类样本发生重叠而导致两类边界更加模糊,且少数类样本分布不均匀,采样后依旧不均匀而影响准确性,基于此对SMOTE算法做出了多种改进,如SMOTE与欠采样结合的方法,先使用SMOTE算法过采样,然后进行数据清洗删除类间重叠的样本。此外还使用模糊C均值(FCM)聚类或其他聚类算法将样本划分成多个簇,在簇内进行插值等。在集成方面,基分类器的选择和所用的集成方法也是影响分类方法的关键因素,本文在上述多种采样算法的基础上,将Takagi-Sugeno-Kang(TSK)模糊模型作为基分类器与AdaBoost算法相结合,多次训练进行迭代更新,最后将各个模型的结果加权结合输出,使各个基模型得到充分的训练,并围绕采样算法的选择和主要参数的优化等方面展开了相关实验,以提升不平衡数据分类的泛化性能。本文选取UCI数据集中的多个不平衡数据集结果进行对比,选取G-means与F-measure作为衡量指标观察各个模型的表现。实验结果表明,论文提出的算法在处理不平衡数据集分类的效果上有所提高。
其他文献
在弱光环境下拍摄的照片中,由于光照条件不充足,通常会导致生成的图像产生大量的噪声、颜色退化、低对比度和曝光不足等严重的问题,这不仅使得图像的可视效果难以接受,同时也丢失了许多细节信息。这种情况也对其他计算机视觉任务产生了严重影响,如目标检测、人脸识别、水下图像成像以及视频监控等。针对这些问题本文主要从缺失信息的恢复和光照场景的自适应两个角度进行了下列研究:1)由于低照度图像中通常含有严重的噪声,导
学位
在欣赏书画艺术作品时,观赏者可以从作品的静态笔触中感受到暗示性的运动,并且大脑中会对其感受到的运动进行无意识的运动模拟。这一心理现象在各种艺术文献中有着广泛的记载,并被归类为“具身美学”的重要感知模式之一。在实验美学中对这类审美现象有相关研究,但这些研究仍停留在审美偏好和脑神经活动方面,过去的研究和实践既没有尝试从大脑中获取想象的笔触运动的“数据”,也没有尝试在此基础上以新的形式重新创作艺术品。目
学位
文本情感分析研究人们在文本中表达的情感、观点、态度。细粒度情感分析是其中的一个细分领域,相比于研究文本整体情感的粗粒度情感分析,细粒度情感分析直接对文本中的实体进行情感分析,具备更多的实用价值。细粒度情感分析的目标是提取出文本中实体,并对根据句中观点对每个实体的情感倾向进行分类。按提取的项目不同,其可以分为方面项抽取、观点项抽取及方面情感分类三个子任务。本文主要研究方面情感分类和结合三个子任务的方
学位
近年来,癌症患者越来越多,并且癌症的死亡率也在不断增加。对于大多数癌症患者来说,传统的物理和化学治疗方法不仅昂贵而且效率不高。此外,一些抗癌药物在杀死癌细胞的同时也会损害正常细胞,患者长时间服用这些药物会使癌细胞产生耐药性。因此,迫切的需要开发新的更加有效的药物。而多肽作为一种高特异性、选择性和对人体伤害小的安全可靠的治疗候选药物,近年来备受研究者的青睐。随着多肽药物数据的增加以及机器学习算法的快
学位
由于小目标具有尺寸小、分辨率低的特点,一直以来是目标检测任务的难题。小目标的识别不能单纯使用一个尺度的特征图预测,需要针对小目标的特点设计合适的检测模型,利用全局语义信息和多尺度特征图进行识别。本文从特征增强的角度出发,提出了新颖的特征融合模块、注意力模块、特征金字塔模块,并将这些模块应用到经典的检测模型中,以提升小目标检测的精度。如下为本文针对提升小目标检测精度做的三个主要工作:1)第一个工作是
学位
曲线拟合与重构是计算机辅助几何设计领域中一个重要的基础研究课题,其相关技术有着广泛的应用。B样条具有优秀的形状表达能力、良好的局部控制能力和连续性,是在曲线拟合中最常见的方法。由于曲线拟合问题中基函数的选取有着重要的影响,因此根据具体问题和约束的不同,学者们也会提出不同于B样条的基函数应用其中。而正交函数系作为一类有着诸多优势的函数却很少被用于曲线拟合,其中一个重要的原因是传统的连续正交函数系基函
学位
近年来,人工智能在医学领域大放异彩,特别是在图像分割领域,取得了很大的进展,现代医学中,医生往往根据不同的医学图像诊断病情,并作出相应的治疗计划。医学图像多种多样,每种图像都有其各自的特点以及擅长的地方。如计算机断层扫描(CT)、超声成像、磁共振成像(MRI)等。借助机器学习算法,我们使用计算机程序处理不同模态的医学图像,帮助医生提高诊断效率。在癌症的治疗中,放疗是最重要的手段之一,对绝大多数癌症
学位
纺织品瑕疵检测是纺织品质量监控的关键环节。视觉显著性可以模拟人类的视觉机制,快速定位具有显著性特征的目标,因此基于视觉显著性的纺织品瑕疵检测很有研究价值。本文研究对象为图案具有复杂周期性变化的纺织品,根据纺织品图像具有周期性的特点,利用图像的自相关性取得最佳分块模板,解决传统算法提取图像周期波动较大的问题。针对原上下文视觉显著性算法仅考虑局部显著差异性的不足,同时计算相邻像素块的全局和局部显著差异
学位
在精准医疗时代,从多组学水平对癌症进行亚型分型成了研究的热点。基于多组学数据进行癌症亚型研究可以利用不同组学上的信息融合,在分子层面更准确的识别癌症亚型。本文将机器学习的方法应用在多个癌症数据集的多组学数据上,通过提出不同的算法对癌症亚型进行研究,发掘不同癌症亚型中的生物标志物,为推动精准个性化医疗作出贡献,主要从以下三个方面开展研究工作:1.CSNF聚类算法及肿瘤亚型研究。基于CCA算法和SNF
学位
推荐系统作为一种高效的信息过滤工具,可以有效地缓解“信息过载”问题。协同过滤是推荐系统中使用最广泛的算法,它通过用户的历史行为分析用户偏好,建模用户特征,为用户推荐感兴趣的项目。由于协同过滤需要使用用户的历史行为数据,而这类数据相对于项目数量往往很少,因此协同过滤容推荐面临着严重的数据稀疏问题。最近,由于用户与项目的关联可以构成天然的二分图,基于图神经网络的推荐越来越受到关注。通过用户-项目二分图
学位