论文部分内容阅读
上世纪90年代,Dietterich等人在药物活性预测问题的研究中提出了多示例学习的概念。在该学习模型中,训练样本的歧义性比较特殊,使得多示例学习模型与传统的机器学习模型有很大的差别。由于多示例学习本身独特的性质和良好的应用前景,被称为是与监督学习、非监督学习和强化学习并列的第四种机器学习框架,并起了国内外研究者的极大关注。
随着研究的深入,多示例学习的理论体系日趋成熟,目前对多示例学习问题的处理主要有三种途径:第一种是根据多示例学习本身的特殊性,构造专门的算法来解决;第二种是通过将多示例学习的约束条件引入到传统的单示例学习算法的目标函数中,对算法进行扩展,使其能够处理多示例问题;第三种是通过一定的转换机制,将多示例学习问题转化为传统的单示例学习问题,然后用传统的单示例算法对其进行学习。在上述三类途径下,研究者提出了大量的多示例学习算法,并将算法应用到社会生产的多个领域中,如:图像分类、股票选择、入侵检测等多个领域,取得了良好的经济效益。
本文主要研究了以下内容:
第一章和第二章主要对多示例学习的研究现状进行了综述。简单介绍了多示例问题的提出背景、基本理论,多示例学习与传统机器学习的区别与联系,并对几种经典的多示例学习算法进行了阐述。介绍了多示例学习的几个应用领域,并对多示例学习的扩展研究进行了分析。
第三章对支持向量数据描述算法进行了研究。首先对统计学理论基础进行了介绍,接着介绍了支持向量机,然后对支持向量数据描述算法的基本原理和求解方法进行分析与讨论,最后引入核函数的概念,并对核函数对支持向量数据描述算法的影响进行了实验与分析。
第四章是本文的主要研究内容。首先介绍了三种基于支持向量机的多示例学习算法:mi—SVM,MI—SVM和DD—SVM,将其作为与本文算法的对比算法。然后提出了一种消除正包中示例歧义性的方法,通过该方法,可以消除正包中示例的歧义性,将多示例数据集转化为单示例数据集。最后,在多示例学习的第三种途径下,通过对多示例数据集的转化,将其转化为传统的单示例问题,并用支持向量数据描述算法对其求解。提出了三种基于支持向量数据描述的多示例学习算法:mi—NSVDD算法、MI—NSVDD算法和MIL_P—NSVDD算法。
第五章是实验与分析,首先在多示例学习基准测试集(MUSK)上验证本文算法的有效性,并与现有算法进行对比分析,以及参数对算法的影响。接着将本文提出的MIL_P—NSVDD算法应用到图像分类中,在实践中验证本文算法,并通过实验,观察样本的种类和数量对算法精度的影响。通过实验证明,本文提出的算法具有良好的性能和应用前景。
第六章总结文章的主要工作,并对未来工作进行展望。