论文部分内容阅读
多标记学习源于对文本分类问题的研究,现如今已成为国际机器学习领域一个重要的研究热点,现实生活中很多学习问题可看作多标记分类问题。在传统的分类方法中,假设每个示例仅具有单个标记,然而,在很多现实世界的应用中,往往存在单个示例同时具有多重标记的情况。本文主要研究示例同时拥有多个标记的多标记问题。论文重点研究了多标记分类问题的基本思路与方法,及其在现实数据集上的各种应用。目前,对多标记分类问题方法研究主要集中在以下两个方面:首先是问题转换方法,即改造数据使其适应现有算法的方法,该类方法主要通过对多标记训练数据样本进行处理,将多标记学习问题转换为其它已知的学习问题进行求解;其次是算法适应方法,即改造现有算法使其适应数据样本,该类方法是通过对传统的机器学习方法进行扩展或改进,使其适应多标记数据学习问题。本文针对多标记学习分类问题主要研究成果有:(1)从样本几何结构角度出发,提出一种改进的聚类有效性指标函数,用于优化多标记分类算法,取得了良好性能。多标记学习采用RBF神经网络与K-means聚类算法相结合取得了较好的效果,但由于聚类数不能事先很好的确定,无法给出准确的聚类个数,会导致聚类质量下降、聚类结果不稳定等,进而影响RBF神经网络多标记算法的稳定性及分类性能。本文从样本几何结构的角度出发,采用一种聚类有效性指标函数,为每个类寻找最优的聚类个数,从而优化问题的求解。理论研究和实验结果表明,改进后的算法在分类的稳定性及分类性能方面都有较好表现。(2)提出一种直推模式局部相关的多标记分类算法,利用已标记和未标记数据信息,有效地为每个示例分配多重标记。该方法通过计算示例分布和局部相关性得出模糊隶属度,然后通过最后的得出的隶属度关系为每个示例分配多重类别标记。在隶属度更新过程,通过引入直推式的局部相关信息修改模糊c-means算法。考虑到获取示例的标记,不仅由数据的分布信息决定,还受到它局部近邻的影响。并提出了一种标记预测方法,利用已获得隶属度为示例预测类别标记。(3)提出一种基于示例空间转换的多标记分类算法,新提出的算法使用一个单独的特征变换算法,将未见示例进行重构,这样,示例和标记间可以有效地匹配。在多标记学习框架下,歧义的样本需要通过明确表示其多重类别标记来表示其输出空间。然而,由于数据样本的歧义性,对于未见样本标记的确定,似乎没那么容易。基于上述认识,假设如果将未见示例的空间转换到已知标记的训练示例的空间,那么,未见示例的标记集将变得明确。为证明这一假设,提出了一种基于示例空间转换的多标记分类算法。实验结果表明,新提出的算法与其他经典的多标记分类算法相比,在分类准确率上有明显优势。