论文部分内容阅读
机器学习是人工智能领域重要的议题之一,广泛的应用于视频、图像、生物信息处理、系统控制等领域。在传统的机器学习中,各类机器学习模型依据学习过程的不同被分为监督学习和非监督学习两种相异的数据处理方法。在监督学习中,系统根据大量的标签样本学习得到具有优良模型泛化能力的分类器,然后利用该分类器对未知样本进行类别标记;非监督学习则根据模型假设对无标签样本进行非标签聚类,从而得到样本间的相互关系。比较两类方法可以发现,监督学习方法虽然分类准确,但数据标签的标定耗时耗力,而非监督方法虽然具有省时省力等多方面的优点,但由于指导信息的缺失,导致其对数据的归类效果不理想。为此,如何将监督方法与非监督方法结合,设计一种半监督聚类方法,从而结合非监督方法的各自优点已成为当下研究的重点问题之一。 为解决上述问题,本文首先引入狄利克雷混合模型(Dirichlet Process Mixture Model,DPMM)。该模型是一种在数据分析中具有良好类别估算和概率表达能力的聚类模型,具有建模能力强大、模型可扩展性好等突出优点,因此被广泛的应用处理各类复杂的概率建模问题。抛开这类模型优势,DPMM聚类结果受数据复杂度的影响较大,聚类能力容易随聚类样本复杂度的增加而下降。针对这类问题,本文首先结合少量监督信息,提出一种结合监督学习的半监督狄利克雷混合模型(Semi-supervised Dirichlet Process Mixture Model,SDPMM),然后针对此框架推导了估算后验概率的变分推理算法。最后为验证本文方法的聚类精确度,本文首先将 SDPMM方法应用于人工数据集、UCI机器学习数据集,实验结果表明,监督方法的引入在使得样本的复杂度降低的同时,可以有效提高DPMM的聚类性能。最后,为进一步扩展本文方法的实用性,结合一类新设计的叶片形状描述方法,将SDPMM方法应用于叶片的聚类和分类实验中。