基于实例过滤的多实例分类研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:oibaggio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,机器学习在各个科学领域扮演着越来越重要的角色。多实例学习由传统机器学习演变而来。在多实例学习中,训练集由若干个具有概念标记的包组成,每个包包含了若干个没有概念标记的实例。若一个包中至少有一个正例,则该包被标记为正,若一个包中所有实例都是反例,则该包被标记为负。通过对训练包的学习,希望学习系统尽可能正确地对训练集之外的包的概念标记进行预测。然而在实际应用中,正包中正实例过于稀疏往往会导致负实例主导分类结果的情况出现,即弱化了正实例在分类中的作用,从而导致预测结果准确率大幅下降。为解决上述问题,本文提出方法是对正包中的实例进行过滤,即最大限度的筛选出正包中的正实例。具体地,根据数据集的不同特性,我们提出了如下两种解决方法:一、基于聚类的多实例过滤分类。具有相同标签的数据可能具有相似的的属性值(即在空间距离上相近),通过聚类可以将它们划分到对应的簇中,从而实现正负实例的分离。我们便提出了基于K-means的多实例过滤分类方法,通过对训练样本中负包的实例进行聚类,然后比较训练样本中正包的实例到簇中心的距离,即距离越近越有可能是负实例,这样来过滤掉正包中的负实例,到达提升多实例学习模型性能的目标。二、基于KLIEP算法的多实例过滤分类。具有相同标签的数据具有相似的分布或相似的概率密度,针对这种情况我们又提出了基于KLEIP的多实例过滤分类方法。首先给训练样本中正包中的实例赋权重,其次通过最小化正包和负包中实例分布的差异,从而学习的得到权重向量。实例的权重值越大,说明此实例更大概率的属于负实例,这样我们就可以过滤掉正包中的负实例,使得多实例学习模型的性能得到提升。
其他文献
克氏原螯虾(Procambarus clarkii Girard),属节肢动物门,甲壳纲,十足目,蝲蛄科,原螯虾属,又名红色沼泽螯虾,俗称淡水龙虾或小龙虾。据报道,克氏原螯虾虾肉中,蛋白质含量为58.
随着计算机技术的发展,数据在日常生活中扮演着越来越重要的角色,数据备份成为数据保护的一种有效手段。远程文件同步技术在数据备份、文件同步等方面有着广泛的应用。rsync(
并行编程技术由于其运算效率高且性能好的能力,一直是学术界和工业界的热点研究对象。作为其中一种解决方案的事务内存处理技术(Transactional Memory,TM),采用以事务代替锁
目前,视觉跟踪算法作为人工智能的一个重要研究方向,多种视觉跟踪算法应运而生。跟踪学习检测(Tracking-Learning-Detection,TLD)视觉跟踪算法就是其中一种。因其结合跟踪和
大数据时代,数据规模日益增大,存储系统面临着速度、容量、功耗、成本、可扩展以及非易失、耐久性等多方面的挑战。传统的动态随机存储存取器(Dynamic Random Access Memory,
为加强社区服刑人员学习矫正工作,认真落实社区服刑人员每月接受教育学习不少于八小时的工作要求,论文设计并开发了社区服刑人员在线学习系统,旨在提高社区服刑人员学习教育
铝合金的比强度高、耐腐蚀性好,是工业中应用最广泛的轻金属结构材料。然而,铝合金也有自身的缺点,如硬度低、耐磨性差,这导致铝合金工件在摩擦条件下的使用寿命较低,阻碍了它的发展与应用。在铝合金表面电镀得到Ni-SiC-MoS_2复合镀层能有效改善其摩擦学性能。然而由于电镀过程受多种条件的影响,因此得到质量稳定、性能良好的镀层显得尤为重要。本文通过对制备Ni-SiC-MoS_2复合镀层工艺的进一步优化,
随着云计算和多媒体通信技术的快速发展,屏幕图像在远程计算、虚拟桌面共享、在线教育等领域有着广泛的应用,受到学术界和工业界的普遍关注,成为当前图像技术领域的研究热点
该项目来源于百度垂直行业搜索产品线的实际项目。随着智能手机的普及,越来越多的用户开始使用手机端进行检索。由于手机大小的限制,一个屏幕可以呈现三条左右的返回结果,因
图表、数据、资料记录、实验比较、逻辑结构通常被广泛用于实验性研究课题的论证依据,在绘画创作领域,存在着国内外艺术家和艺术研究人员将逻辑观念与艺术创作紧密联系的工作