论文部分内容阅读
粗糙集理论是一种可以处理不精确、不确定、不完备和不一致数据的有效的数据分析工具。近年来,粗糙集理论凭借其独特的优势开始逐渐应用到生物信息学领域,并且在肿瘤分类特征基因选择方面取得了一些较好的研究成果。然而粗糙集理论是定义在等价关系基础上的,只能处理离散型数据,如果处理数值型数据则需要先对其进行离散化处理,这不仅需要花费大量的预处理时间,而且在离散化的过程中可能会丢失一些重要信息,从而导致分类精度下降。而邻域粗糙集理论能够直接处理数值型数据,可以直接应用于特征基因选择,从而可以节省大量的数据预处理时间,并且可以在一定程度上避免信息丢失,使得所选择的特征基因子集能够较大限度地保持原始数据集的分类能力。本文将邻域粗糙集理论应用到特征基因选择方法中,并将邻域互信息作为相关度的度量标准,提出一些特征基因选择算法。本文的主要创新点如下:(1)针对传统的特征选择方法在处理数值型数据时需要对其进行离散化处理,将导致部分重要信息丢失和分类精度下降等问题,本文基于邻域互信息对Relief算法进行改进,提出了一种NRFE_Relief算法,并用该算法对基因进行排序生成候选特征基因集合;引入能够直接处理数值型数据的邻域粗糙集属性约简模型,对候选特征基因集合进行属性约简,得到相关特征基因子集;再利用粒子群优化算法检测相关特征基因子集,选择出最优或次优的特征基因子集。在此基础上,构建了基于邻域粗糙集和粒子群优化的特征基因选择算法。实验结果表明,该算法可快速有效地选取肿瘤特征基因,并且能够获得较好的分类效果。(2)为了避免肿瘤无关基因以及噪声的影响,本文提出了一种基于邻域互信息和自组织映射的特征基因选择算法。该算法利用NRFE_Relief算法对基因进行排序,选择出初始的基因子集;采用能够直接处理基因数据的邻域互信息代替欧氏距离测量属性之间的相关性,对自组织映射聚类算法进行改进,并用改进后的自组织映射聚类算法对初始的基因子集进行聚类;定义了基于邻域互信息的属性重要性系数,从每一类簇中选择代表基因形成特征基因子集。实验结果表明,该算法可以有效地选取特征基因,从而提高了分类精度。(3)为克服K-means算法存在硬划分的不足和弥补模糊C均值聚类算法容易导致局部收敛和聚类效果不佳的缺陷,以及更好的处理数值型的基因数据,本文基于邻域粗糙集中的邻域关系和邻域互信息定义了属性的内聚度与属性间的邻域耦合度,提出了一种新的初始聚类中心选择算法,并基于此算法改进了模糊C均值聚类算法,利用改进的模糊C均值聚类算法对基因数据进行聚类;采用基于邻域互信息的属性重要性系数,挑选出每簇中重要性系数值最大的基因作为该簇的代表基因,进而提出了一种基于邻域粗糙集和模糊C均值聚类的特征基因选择算法。实验结果表明该算法能够有效的选取特征基因子集。