论文部分内容阅读
随着机器学习理论研究的深入,很多传统领域借用机器学习来提高研究水平,应用机器学习方法层出不穷,特别是基于机器学习的数据分析方法已成为解决复杂问题的关键技术之一。因此,当前机器学习的角色也逐渐发生了改变,由单一方向向多方向发展,大量研究者根据其特点相继提出了一些新方法和新思想(如多示例学习),并实现了从理论分析到实际应用的转变。多示例学习问题则成为了机器学习理论中一个全新理论分支。在多示例学习中,训练样本是由包含多个示例包的组成,包是有概念标记的,示例是没有标记的。训练样本的歧义性比较特殊,使得多示例学习模型与传统的机器学习模型有很大的差别。由于多示例学习本身独特的性质和良好的应用前景,被称为是与监督学习、非监督学习和强化学习并列的第四种机器学习框架,引起国内外研究者的极大关注。本文对基于支持向量数据描述和多示例学习进行研究,提出了两种基于SVDD的消歧义多示例学习算法:MIL-NSVDD_I算法和MIL-NSVDD_B算法。论文主要工作有以下三个个方面。首先,论文研究了在支持向量机及最小包围球理论基础上发展起来的支持向量数据描述算法,包括硬间隔、软间隔及带负类样本的SVDD方法。并针对核参数和惩罚参数对SVDD算法的影响进行分析与讨论。其次,论文提出了一种消除包中示例歧义性的方法,将多示例数据集转化为单示例数据集。将正包中的示例按照预测精度进行降序排列,选择前m+个最大预测精度值的示例,参数m+为能够从每个包中选出一个示例的最小值,被选出的示例即为消除歧义后的正示例集合。对于负包中筛选代表性示例的方法,我们把负包中的所有示例与选出的消歧义后的正示例集合的距离按升序排列,选择前m-个距离最小的示例,参数m-为能够从每个包中至少选出一个示例的最小值,选出的这部分示例为负包中的代表性示例。最后,本文采用两种特征映射,基于示例等级的特征映射和基于包等级的特征映射,将多示例学习问题转化成标准的机器学习问题,用带负类的SVDD方法对映射后的单示例数据集进行学习,得到相应的分类器。论文在实验部分验证了本文算法的有效性,并与现有算法的分类精度进行对比分析。综上所述,论文提出的MIL-NSVDD_I算法和MIL-NSVDD_B算法是能够有效解决多示例学习问题的新算法,具有较强的理论和应用意义。