论文部分内容阅读
随着科学技术的发展,模式识别在越来越多的社会活动中扮演重要角色,常见的有文本数据识别、人脸图像识别、遥感图像识别、生物信息识别等。与此同时,高维数据的出现也给模式识别带来巨大的挑战,主要体现在计算复杂度高并且识别结果不令人满意。降维作为高维数据处理的关键研究问题之一,将原始高维数据由高维空间以某种方式映射到低维空间上的过程,能够抽取得到对数据识别有意义的重要特征,移除特征集中不相关和冗余的特征。尽管降维的研究已取得丰富的成果,但是当前许多实际问题中的数据呈现高维度、大数据量、类别标记缺失等特点,降维技术仍需通过对现有方法进行完善或探索新的理论方法以获得进一步的发展。本文主要贡献和研究内容包括如下四个方面:(1)针对类别标记不完整的数据集上的特征提取问题,如类别标记信息的利用、多模态分布的相似数据距离度量,提出重构概率类的半监督局部线性判别分析。该方法中的重构概率类赋予每一个无类别标记数据所属类别的概率,这一类别由该数据的最邻近有类别标记数据确定,进而实现降维过程中有标记数据和无标记数据的充分融合。类间散度矩阵和类内散度矩阵计算中引入差异化的数据对象距离的权重,使得多模态分布的数据由高维空间映射到低维空间时,类间数据对象尽可能地分离且类内邻近数据对象尽可能地紧凑。(2)针对无类别标记数据上的特征之间相关性研究,提出基于信息理论的无监督相关度增益度量,能够有效地度量无类别标记数据的特征重要性和特征之间相关性,避免无类别标记数据特征选择过程中多次迭代地执行学习算法以评估特征子集的重要性。无类别标记数据的特征重要性定义为对应特征与所有特征的平均互信息,并由推论得出在朴素贝叶斯条件下对应特征的重要性可以最大化地逼近真实数据特征与潜在类别之间的相关性。(3)为了解决目前无监督特征选择方法中缺少有效的无监督特征相关性度量、执行效率偏低和易陷入局部最优解等问题,提出两种无监督特征选择方法,包括基于相关度增益和Markov blanket聚类的特征选择和基于相关度增益和粒子群优化的特征选择。前者以特征为节点、相关度增益为权重边构建有向无环图,由Markov blanket划分有向无环图实现冗余特征的聚类,从每个特征簇中选择一个代表特征组成所选的特征子集。后者是在前者基础上提出的一种粒子群优化的启发式特征选择方法,粒子的随机运动和多粒子的相互作用能够避免特征选择过早地陷入局部最优解,进而以更大概率获得全局最优解。(4)实际应用中有类别标记数据的获取难度远大于无类别标记数据,在许多数据集中,只有少量的数据对象具有类别标记信息。采用有监督或无监督特征选择所取得的特征子集仅利用了数据集的部分信息,而舍去剩余的无类别标记数据或已有类别标记信息。针对这一问题,提出基于信息理论和相关度增益的半监督代表特征选择,通过一个平衡因子将有类别标记数据特征的互信息和无类别标记数据特征的相关度增益紧密地结合在一起,充分利用了整个数据集的信息来度量特征重要性和特征之间相关性。