论文部分内容阅读
在机器学习领域,随着样本特征维数的增加,学习算法常常遇到小样本高维数的问题。特征选择方法由于能够简化模型并且极大程度上提高了学习性能,已被广泛应用到机器学习和医学图像分析等领域。近来,特征选择方法也被应用到复杂结构化的数据分析中,例如脑网络分析。然而,这些研究通常使用机器学习中的典型的特征选择方法,而忽略了脑网络自身内在的特性,如网络自身的拓扑结构的信息,以及网络数据的整体分布信息,从而可能影响脑网络分析的性能;同时,在脑网络分析中,构建的脑网络通常为加权连接网络。例如基于功能性核磁共振成像(functional magnetic resonance imaging,fMRI)构建的功能性脑网络是一个全连接的加权网络。为了刻画脑网络拓扑结构信息,需要对网络进行阈值化处理。一方面,目前仍没有一个好的标准去确定相应的阈值。另一方面,不同的阈值化的脑网络展现不同的拓扑特性,这些拓扑特性可能包含互补信息,能够进一步提升脑网络分析性能。基于此背景,本文展开了面向脑网络的特征选择研究工作,具体工作如下:(1)针对处理网络数据研究,通常是提取网络的局部测量作为特征向量被用于随后的特征选择和分类,存在忽略了自身固有的网络拓扑结构信息导致分类性能降低的问题,本文提出一种面向脑网络的单阈值下基于图核的特征选择方法(gk-SFS)。提出的gk-SFS方法不仅保留了网络数据自身拓扑结构信息,而且保留了网络数据的整体分布信息。具体而言就是:提出的gk-SFS方法首先引入图核(构建在图上的核)来计算脑网络的相似性,并将其嵌入到了一个Laplacian正则化项,其次,使用一个L1范式稀疏化项,保证只有少量的特征能被选择。在两个真实脑网络数据集上,实验结果表明,相比较已有的方法,提出的gk-SFS方法能够取得更好的分类性能。(2)为了充分利用网络拓扑结构信息和不同阈值下脑网络的互补信息,本文进一步将提出的gk-SFS方法扩展到多阈值下的特征选择,提出了一种面向脑网络的多阈值下基于图核的多任务的特征选择方法(gk-MTFS)。通过同时选取多个不同阈值的网络互补信息进一步提升网络分析的性能。具体而言,通过多任务的方式探索不同阈值下脑网络传达的互补信息,利用L2,1范式将会使少量的特征从多个阈值任务中被联合选择,并利用基于图核的Laplacian正则化项,用于保留网络的拓扑结构信息和网络数据分布信息。在两个真实脑网络数据集上的实验上验证了提出gk-MTFS方法能够进一步提升脑网络分析性能。