论文部分内容阅读
近年来,人类对肿瘤的诊断和治疗已不再停留在表观阶段,人们渴望探索肿瘤产生和转移的根本基因学根源。随着芯片和高通量测序技术的广泛应用,在肿瘤研究领域积累了越来越多的基因组学数据,推动了精准医疗的发展。许多研究采用特征选择技术挖掘生物标志物(如信息基因)从而进一步分析癌症的病理,研发靶向药物。本文围绕肿瘤基因组数据的特征选择的主题,在现有的特征选择算法及研究的基础上,提出了若干针对肿瘤基因组数据的新的特征选择算法,策略及应用:(1)基于t检验和倍数分析的信息基因初选。对基因表达数据通过基于t检验(t-test)和倍数分析相结合的方法识别出差异表达基因,并改进了基因的选取条件。该初选方法首先设定t检验得到的p值及倍数变化的阈值,针对肿瘤基因组数据的特性及对差异表达基因的选择要求构建了距离公式。将满足阈值的基因通过距离公式进一步排序筛选,以获得固定的数目的拥有最高质量的差异表达基因。最后对四组基因表达数据进行信息基因初选,获得了若干上调及下调差异性表达基因。(2)基于遗传算法的信息基因精选。对于经过初选后信息基因数较多的数据集来说,还需要进行基因精选来获得较少的信息基因。本文中通过采用后验概率及线性分类器的经验误差率两者的线性组合作为适应度函数的遗传算法对信息基因进行精选,以实现信息基因子集的两类可分性最大化。并根据肿瘤基因组数据的特点对参数进行优化设置,从而获得一定数量的精选信息基因子集。(3)基于邻域粗糙集改进的启发式宽度优先搜索特征选择算法HBSA-NRS。针对启发式宽度优先搜索算法(HBSA)在特征选择中计算节点多且耗时的问题,提出了一种基于邻域粗糙集改进的启发式宽度优先搜索算法(HBSA-NRS)。根据HBSA-NRS,在扩展搜索树每层节点时按照邻域粗糙集理论计算所有候选特征的重要度并设定特征的重要度阈值,筛选出大于给定阈值的特征作为子节点进行扩展,并用SVM计算每层节点路径代表的特征子集的分类准确率作为启发式信息,倒序排列后选择前若干个节点作为下层的待扩展父节点,进一步降低了搜索树的节点数量。该算法大大减少了启发式宽度优先搜索计算量,降低了算法的运行时间。