论文部分内容阅读
在很多机器学习应用中,由于数据标注过程的高成本,获得完全真实的标签这样强的监督信息是很困难的。因此,能充分利用弱的监督信息并产生好的泛化性能的弱标签学习技术是非常值得关注的。现在,弱标签学习已经被认为是机器学习中最具挑战性的任务之一。根据不同种类的弱监督信息,弱标签学习可以分为不同的类型,比如半监督学习,多示例学习,标签比例学习等等。这些不同的实例类型都有着丰富的应用场景,吸引了很多研究者的目光。如何使弱标签学习方法具有更好的效果和效率,是该研究领域一直在努力的方向。朝着这个方向,本文进行了弱标签学习模型和算法问题的研究,主要的工作和研究成果包括: (1)针对弱标签学习这个整体进行研究。基于轮换优化的框架,设计了充分利用迭代结构的快速最小二乘支持向量机算法(FLSSVM)。该算法巧妙重排求解最小二乘支持向量机(LSSVM)的线性系统的系数矩阵,使其在迭代过程中保持一致,然后求逆存储在内存中共享。进一步,为了把FLSSVM扩展到大规模问题上,提出了基于不完全Cholesky分解(ICF)和SMW公式的快速算法FLSSVMICF+SMW。在理论上,给出了解的相关近似误差界,并进行了复杂度分析。应用提出的算法到比较典型的两类弱标签学习问题:多示例学习和标签比例学习,在这两个问题上进行了大量的数值实验。在小规模和大规模数据集上的结果很好的说明了方法的有效性和求解效率。 (2)针对弱标签学习中的一类——标签比例学习进行研究。据所知,反向极限学习机(IELM)是第一个将极限学习机(ELM)扩展到标签比例学习的工作。由于基于ELM,它相比现有的标签比例学习方法获得了更快的速度并实现了有竞争力的分类精度。核极限学习机(KELM)将基本的ELM推广到基于核的框架。它不仅解决了基本的ELM中隐层节点数依赖于人工设置的问题,而且比基本的ELM具有更好的稳定性和泛化能力。但是,对于标签比例学习,还没有基于KELM的研究。在本文中,应用KELM提出了标签比例学习的新方法LLP-KELM。与IELM相比,分类精度大大提高。大量的数值实验说明了方法的有效性。