论文部分内容阅读
上世纪90年代,Dietterich等人在药物活性预测问题的研究中提出了多示例学习的概念。在该学习模型中,训练样本的歧义性比较特殊,使得多示例学习模型与传统的机器学习模型有很大的差别。由于多示例学习本身独特的性质和良好的应用前景,被称为是与监督学习、非监督学习和强化学习并列的第四种机器学习框架,并起了国内外研究者的极大关注。经过近几年的研究,多示例学习的应用越来越广泛。在多示例问题中,由于正包中的示例标签类别是不确定的,仅仅知道这个正包中至少包含一个正示例。国内外学者针对多示例学习的独特性质,提出了解决多示例学习问题的一些途径。本文分析了现有算法的不足,然后基于SVDD的模型提出了两种新的算法:MI-NSVDD_B算法和MI-NSVDD_I算法。本文主要研究了以下内容:首先对多示例学习的研究现状进行了综述。然后介绍了SVM和支持向量描述域的概念,并针对NSVDD做了详细的理论推导。然后介绍了两种解决多示例学习问题的支持向量数据描述算法mi-NSVDD算法和MI-NSVDD算法,并且对这两种算法进行了一定的分析,提出了该算法所存在的一些缺陷和不足。其次,本论文针对多示例学习问题的特点,提出了一种消除包中示例歧义性的方法:这个算法先通过概率的方法对正包中所有的示例进行精度预测,然后在每个正包中选出这个包中预测精度最高的示例来代表这个包,从而把包转换成为了一个单独的示例。这些示例组成的集合即为消除歧义后的正示例集合。然后又针对负包提出了一种选择最具有代表性的负示例的算法:把负包中每个示例与选出的消歧义后的正示例集合的距离计算出来,然后选择距离最远的示例作为这个负包中代表性的示例,从而同样也把包转换成了单示例。最后,提出了两种特征映射方法:基于包等级的特征映射和基于示例等级的特征映射。这两个算法可以分别把示例进行映射,然后使用NSVDD算法对进行映射后的单示例问题进行学习和求解,并得到了最终的分类器。针对不同的映射方法提出了两种基于支持向量数据描述的多示例学习算法:MI-NSVDD_B算法和MI-NSVDD_I算法。然后论文在实验部分验证了MI-NSVDD_B算法和MI-NSVDD_I算法的有效性。综上所述,本文所提出的MI-NSVDD_B算法和MI-NSVDD_I是能够有效解决多示例学习问题的新的算法。