论文部分内容阅读
多示例学习是一种新的机器学习框架,是机器学习领域中的热门的研究方向。近年来,有监督学习在很多应用领域中已经取得了的成功。然而,在现实应用中,许多问题依然难以用简单的示例进行描述,而且高质量、大规模的标注样本集难以获得。区别于基于样例的学习方法,多示例学习引入了包的概念,学习对象被称为包,每个包由数目不确定的示例构成。包是有标记的,示例是无标记的。多示例学习作为一种新型的机器学习框架,可以有效地解决很多有监督学习难以解决的问题。
近年来,用机器学习的方法来分析心电图是一个很热门的应用领域。由于一个心电图中包含多个心跳,并且心跳规模巨大且无法全部人工标注,因此有监督的学习机制无法在心电图自动分类取得好的分类性能。本文分析了多示例学习算法应用到心电图自动分类的合理性,并提出了一个新的基于隐式主题模型的多示例学习算法(LTMIL)。在LTMIL算法中,我们通过将无监督学习应用到未标注的心跳数据集中,构建了隐式主题模型,并将心电图映射到主题模型中,得到心电图层的特征向量,并最终通过有监督的学习如支持向量机等,训练心电图分类器,并对未知的心电图进行预测。在PTB诊断数据库的心电图数据集上的测试结果表明:与典型的多示例算法和监督学习算法相比,LTMIL提高了分类结果的敏感性和特异性,并且无需标注心跳标签。
随着多示例学习的发展以及其应用问题的复杂化,多示例学习有了一个更为泛化的定义,即包的标签是由示例的标签决定的,但是这种关系式复杂且未知的。图像分类问题就是典型的泛化的多示例学习问题:图像对应于包,图像中萃取的小块或者分割的区域对应于示例,示例的标签是模糊的,但是所有包内的示例将决定包的标签。当前的机器学习算法,都很难科学的应对泛化的多示例学习问题。我们对泛化的多示例学习问题给出了一个新的定义,认为在所有示例中,不仅对正示例或者负示例,都存在这可信示例和模糊示例,其中,可信示例决定着包的标签。虽然包和示例关系也是复杂未知的,但是,保留可信示例并去除模糊示例可以对示例的判断发挥很大的作用。为此,我们提出了一个新的基于协同训练的示例选择策略(CTIS):首先,从所有示例中选出可信示例训练分类器;然后,对包中的未知示例进行分析,预测示例标签;最终通过基于示例标签的多示例核对包进行分类。实验表明CTIS算法能有效的解决泛化的多示例学习问题。
本文的主要研究工作和创新点包括以下两个方面:
1.围绕心电图分类问题,尤其针对心肌梗塞症状心电图分类,提出了一个新的多示例学习算法——LTMIL算法。我们对多示例学习应用到心电图分类问题的合理性进行了论述,并将多示例学习算法首次应用到心电图分类问题中。实验结果表明,多示例学习相比于有监督学习,能够更好的解决心电图分类、分析问题。相关的研究成果已发表,见发表文章列表[1][4].
2.针对图像分类问题,提出了一个新的针对于泛化的多示例学习问题的算法——CTIS算法。在CORAL图像数据库中的实验结果表明,CTIS可以有效的解决图像分类问题,其表现优于现有的最好的多示例学习算法。