论文部分内容阅读
将数据挖掘技术应用于微阵列数据分析,对寻找潜在功能基因、肿瘤诊断以及确定新药靶点等存在重要意义。从数据挖掘的角度来看,微阵列数据是一种样本数目远小于特征数目的“病态”数据。在这种“病态”数据中,使用数据挖掘的方法找到功能基因和致病基因一直是研究的热点。机器学习中的特征选择所研究的即是如何选取对分类有贡献的特征,因此,一般的特征选择技术可以用于选择基因特征等微阵列数据分析中。但将特征选择算法用于基因特征选择并构造分类模型时,由于微阵列数据的小样本大属性维度特点,仍有些问题没有解决或得到足够重视。首先,在微阵列数据上进行特征选择并构造分类模型方面,鲜有工作从微阵列数据的特点出发进行必要的可学习性的理论分析,其中一个重要原因是对很多方法难以进行可学习性分析。其次,在特征选择中,如何对特征进行表征,将直接影响特征选择结果的优劣。在微阵列数据上,传统特征选择方法大多使用单一度量值来表征基因的分类能力。这种单一的度量值,通常是通过求极值或求累加的操作来获得的,掩盖了基因与类别间隐含的大量信息,而这些信息对于更细微地表征基因分类能力是非常重要的。而且传统的基于单一值表征的特征选择框架相对固定,限制了研究人员使用更加全面的非单一度量值的特征分类能力表征方法进行特征选择。最后,模糊聚类与相似性度量均广泛应用于基因特征选择中,但相似性度量却无法被用在模糊聚类中。由于这一原因,微阵列数据中所包含的样本类别信息这一先验知识无法被模糊聚类所利用。针对上述问题,本文从下面四个方面展开研究。首先,从计算学习理论的角度,对在微阵列数据上进行特征选择并构造分类器的可学习性进行了理论分析。分类器的VC维和可PAC学习的样本量边界是定量分析评价分类器的两个客观标准。由于不同分类器空间构型和理论基础存在很大差异,所以并不是所有分类器的VC维和可PAC学习边界都是易于获得的。本文从VC维的角度,分析了用于处理“病态”数据的RHC分类器。通过对RHC分类器空间构形的分析,推导出了RHC分类器的VC维。根据VC维可知,RHC分类器保证可PAC学习所需样本的上界是多项式级别的,而且处理样本所需的时间也是多项式级别的。依据上述两点,可以证明粗糙超长方体分类器RHC是可PAC学习性。将其与多种已经用于微阵列数据的通用分类器进行了比对可知:尽管RHC分类器相对其他分类器已大大降低了其VC维,且已经优于大多数分类器。然而,要确保RHC分类器在微阵列数据上的可PAC学习性,所需提供的样本量依然相对庞大。通过计算实际问题中需要的样本边界后可分析得出:想要提高分类器在微阵列数据上的PAC可学习性,降低特征数是一条有效降低潜在的学习样本数目的途径。其次,为了更全面地刻画微阵列数据中基因特征,本文提出了一种用向量记录分类能力信息,进而表征基因分类能力的度量向量。通过记录基因对每个类别的分类能力,以向量的形式将这些统计值保存,并表征基因。相对于单一值度量的方法,分类能力的向量化表征能够反映出基因在不同类别上的分类能力,因而能够避免“偏置”和“累积误差”所带来的错误。进一步地,根据向量化表征的结构特征,本文给出了一种新的基于分类能力向量化表征的特征选择算法。通过引入基因的定量分类能力表征向量,可以筛选得到一个保留了原始数据分类能力的基因候选子集。根据这个候选子集,使用随机搜索策略在定性向量化表征的指导下得到最终的特征选择结果。通过定量分类能力表征向量和定性分类能力表征向量,该方法可以从分类能力的角度对微阵列数据中的基因进行特征选择,将特征选择和在疾病识别上的应用结合起来。第三,本文将训练数据中样本类别信息和原始基因特征相结合,得到了引入监督信息的改良基因特征表征。使用距离关系来评价基因与基因之间关系的方法,仍然属于非相似性度量,然而已经引入了先验知识。通过使用改良基因特征表征,在不改变模糊聚类经典框架中目标函数和优化方向的前提下,可以直接将先验知识用于模糊聚类。这一改良基因特征表征的使用,弥补了模糊聚类只能使用非相似性度量的不足,模糊聚类可以在有监督的情况下对基因进行聚类,使得模糊聚类划分更符合实际中的空间分布情况。第四,本文提出了一种基于划分系数和边界密度的模糊聚类有效性评估方法。不同于大多数基于类别中心点间距离的类间离散度指标,新评估方法使用了当前聚类结果中不同类别边界附近的样本稀疏程度和边界距离这些信息。这一方法首先逐个分析每个类的最近类。然后再获取每个类与其最近类的中点密度值作为这个类的类间离散度度量。最后通过对所有类的类间离散度度量求和,得到当前聚类划分的类间离散度值。通过将类间离散度与类内紧致度的联合分析,新提出的评估方法有效评价了模糊聚类结果。借助于这一模糊聚类有效性评估方法,通过在不同聚类数目上进行寻优操作,可以自动确定聚类类别数目。本文在已有的开源微阵列基因表达数据上进行了的大量实验并对结果进行了分析。实验证明,分类能力向量化的表征可以更加准确全面地描述基因。和现有的用于微阵列数据的大多基因选择算法相比,基于分类能力向量化表征的基因选择算法能够得到有较高预测准确率的基因特征子集。基于特征改良的模糊聚类和新提出的模糊聚类评估方法的有效性,通过实验和生物学分析也得以证实。