基于覆盖算法的多示例学习研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:miaoloveyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的机器学习主要包括监督学习、无监督学习和强化学习等,在这些学习框架中,一个样本对应一个确定的标记。而在很多实际问题中,待分类样本的标记是不明确的,从而出现一个新的学习框架——多示例学习( Multi-Instance Leaming,MIL),该学习方法已逐渐成为机器学习领域的研究热点。该框架起源于药物分子活性的预测,学习的样本是由多个示例组成的包,包的标记已知,而包中的示例标记是未知的。如果一个包至少包含一个正示例,那么这个包称为正包,如果包中的示例均为反示例,称该包为反包。但是由于正包中含有的大量的假正例,即正包是具有歧义的对象,不能直接对其进行处理,从而增加了多示例学习的难度。
  由于正包的标记是由包中的正示例决定,因此若能从正包中选出正示例,排除其中的假正例,则会提高包分类的精度。目前已有很多类似的算法,但是很多算法提取的示例很难有效代表训练包,而且这些算法均未考虑提取的示例的重要程度。若一个示例a周围分布较多的同类示例,则该示例的重要程度较大,因为随机测试一个示例,该示例则以较大概率落入ai周围,很可能与ai是同类别的示例,即可认为ai示例的代表性更强,应首先将其选出。
  本文研究的重点在于如何利用构造性覆盖算法(Constructive Covering Algorithm,CCA)的聚类特性,找到一个能有效提取代表性的示例的方法。本文提出基于构造性覆盖算法进行示例提取的多示例学习算法,即T-MilCa算法和M-MilCa算法,分别对应未考虑示例重要度和以覆盖的示例数作为示例的重要度的多示例学习算法。上述2个算法的思想主要是利用最大Hausdorff距离从正包中选出若干初始代表性的正示例,然后利用构造性覆盖算法对反包中的示例构造覆盖后进行反测试来排除正包中的假正例,更新初始选出的正示例,再利用构造性覆盖算法选出反示例中具有代表性的示例,最后使用一个相似度函数将每个包转为单示例,并使用构造性覆盖算法对转换后的单示例进行学习和分类。
  本文的主要研究内容如下:
  1.介绍了多示例学习研究背景和研究现状以及多示例学习的应用领域和目前该研究领域存在的障碍。
  2.详细介绍多示例学习的相关概念及其与传统学习方法的区别,分析几种经典的多示例学习算法的思想,指出多示例学习的难点和现有算法的不足之处,最后简要介绍构造性覆盖算法的主要思想及其训练和测试过程,以及分析如何将构造性覆盖算法应用到多示例学习中。
  3.将最大Hausdorff距离和构造性覆盖算法应用于多示例学习中,提出基于示例提取的多示例学习算法T-MilCa算法,该方法未考虑提取的示例重要度,利用欧式距离不断排除正包中的假正例,在标准麝香分子和Corel图像数据集上进行实验证明算法的有效性。
  4.对T-MilCa算法进行改进,引入构造性覆盖算法中覆盖的示例数衡量提取的示例的重要程度,提出基于示例重要度的M-MilCa算法,同样在两类麝香分子数据集和Corel图像数据集进行实验,结果表明该方法不仅能减少提取的示例个数,在准确度方面也能与现有的较好的多示例算法相媲美。
其他文献
会议
期刊
期刊
期刊
期刊
期刊
在网络中占据何种位置能够获益的想法已经得到了许多人的关注.有些存在于个体之间或者团体之间的被称为中间人或者是桥,他们更有可能获得丰富的信息,并且能够控制这些个体或者团体之间的网络关系,这个观点是在结构洞理论的基础上形成的.结构洞理论是社会学和社交网络中研究个体在群体中关键位置和作用的重要结论,受到社会学、心理学、经济学等领域的研究者们的重视和关注,并被广泛应用于各个领域.作为网络结构分析的重要概念
学位
期刊
期刊
期刊