论文部分内容阅读
目前,以生物信息学(Bioinformatics)为背景的研究广泛开展,研究人员利用机器学习、数据挖掘等数据分析方法来发现大量数据所隐含的各种规律从而解决实际问题。基于基因检测和数据分析技术,通过对基因表达谱数据(Gene expression profile data)的研究分析,可以精确识别不同的癌症类型,给针对性的临床治疗提供方案和依据。随着人类基因组计划的进行,基因表达谱数据呈指数级增长,传统的数据分析和研究远远达不到生物信息学的要求。基因表达谱数据样本空间小、基因种类多的特性给现有的常规数据挖掘方式带来了巨大的障碍。基因特征选取通过去除大量不相关的和冗余的基因来寻找相关基因,是建立有效分类模型的基础,是解决高维小样本问题的有效手段。基于上面的分析,本论文首先分析和研究了基因表达谱数据和特征选取的概念,其次提出了基于分类技术的基因特征选取算法,最后进行了具体的测验和分析。为了提高算法的稳定性,首先建立了间隔空间,用来描述原始特征空间中样本之间的距离,并计算每个样本的权重,建立了样本权重模型。在加权样本数据的基础上,以改进信息度量作为评价准则衡量基因信息量的大小,建立未消噪和消噪的基因特征初步选取模型。然后在初步选取模型的基础上,用浮动顺序替换搜索算法得到不同大小的基因特征组合,结合SVM分类器对上述基因特征组合进行性能评估并得到信息基因集合。接下来为了进一步提高算法的性能,结合集成思想提出了改进的特征选取算法:首先将多种排序准则相结合,在一定程度上对不同排序准则各自的缺陷进行弥补,并有效提高分类的准确率。其次,加入部分具有确定性的先验基因,利用人工神经网络对模糊权值的优化来实现其确定先验基因与不确定基因信息之间的组合,建立具有自适应能力的选取模型。结合支持向量机、逻辑回归、神经网络和决策树4种分类器,将所提模型与经典特征选取模型进行比较分析。经过实验分析发现,本文所提选取模型在保证分类性能的前提下,具有较好的稳定性。