论文部分内容阅读
基于肿瘤不同的亚型的精确识别对于良性肿瘤的预防和癌症的治疗都非常关键,肿瘤不同的亚型分类研究获取了重大的关注度,而肿瘤基因表达谱数据为研究提供了重要的资源。针对基因表达谱数据中包含的特征,目前出现了多种信息基因选取的方法。邻域粗糙集理论在各个应用领域的日益成熟,为分析这类数据提供了另一种有用的研究工具。在邻域互信息信息基因选择算法及扩展的邻域条件互信息信息基因选择算法中,计算基因属性与决策属性之间的互信息值是复杂的。根据每个基因属性计算出的互信息值对基因进行排序,选取前K个基因,设定一个合适的判别函数进行降维处理。整个过程的计算量大时间长,而且选取合适的K值需要多次实验测试。针对这些考虑,本文提出了邻域粗糙集属性分类效率算法(NRSACE)。一般可知对于肿瘤分类来说有效的基因数目并不多,分类效率太低的基因我们可以设置最低分类效率控制值对其进行直接删除,基于这些想法,NRSACE算法直接计算基因属性的分类效率,对基因边排序边选择,获取所需的相对约简信息基因集。最后采用支持向量机分类器和K最近邻分类器对选取的信息基因集的分类能力进行验证,说明本文提出的邻域粗糙集属性分类效率信息基因选择算法的有效性。本文选了4组通用的肿瘤基因表达谱数据对提出的NRSACE算法进行了实验分析,4组数据分别是DLBCL、Leukemia1、Leukemia2和SRBCT肿瘤基因表达谱数据。数据实验分析结果显示,根据调节模型邻域参数δ的取值,4类肿瘤亚型的分类精度的平均值都可达到百分之九十八以上,而且实验分类精度的波动范围很小。SRBCT数据集的分析结果显示其平均分类准确率提高接近14%。本文对模型的稳健性进行了测试,随机删除原始数据集中5%的样本数,对剩余样本利用NRSACE算法进行分析,选取的信息基因集的元素个数协同选择的基因集具体元素相差不大,同时平均分类准确率相对稳定。所有分析表明,我们的研究具有一定的意义。