论文部分内容阅读
随着测序技术的不断发展,DNA测序技术在疾病预测和基因诊断方面的研究及应用变得越来越普遍。针对目前癌症病变高发的情况,引入DNA测序技术来帮助研究人员识别癌症标志物,对提高癌症患者的治愈率有很大的帮助。但是通过该技术获得的基因表达谱数据(微阵列数据)具有维数高、样本量少、分布不均匀和噪声多等特点,且噪声基因会降低癌症分类的准确性,让研究人员很难在短时间内对数据进行分析。因此,需要找到一种有效的方法对微阵列数据进行预处理。特征选择作为一种高效的数据预处理方法已成为生物信息领域研究的热点,被广泛应用到生物数据处理工作中。目前,已有一些特征选择方法被成功的应用到癌症数据分析中。其中,基于封装(Wrapper)式特征选择方法在寻找癌症标志物的过程中获得了较高的分类精度,从而吸引了很多研究人员的关注。Wrapper方法主要依赖于搜索策略的选择,使用不同的搜索策略处理数据,会得到不同的结果。根据微阵列数据的特性,本文提出了两种用来识别癌症标志物的特征选择算法。主要研究成果如下:(1)为了解决癌症微阵列数据造成的“维数灾难”等问题,本文结合过滤(Filter)方法和Wrapper方法的优势,在单一的化学反应优化算法(CRO)上提出了一种混合算法(IGICRO),并将其应用在高维癌症微阵列数据集上。提出该算法的目的是提高单一CRO算法的分类精度、收敛速度并识别出与癌症相关性较大的基因。该混合方法首先利用信息增益(IG)对数据集进行降维,然后在更新解的过程中加入邻域搜索机制来提高CRO的局部搜索性能,并改进了CRO四个操作算子的碰撞过程。实验结果显示IGICRO算法筛选到的特征子集数目较小,且相比其他对比算法获取到的分类准确率较高。(2)通过DNA测序技术获得的肺癌数据具有维数高、样本量少的特点。为了快速去除不相关特征,识别出与肺癌相关的基因,在标准和谐搜索算法的基础上,本文提出了一种改进的混合和谐搜索算法(MHS)。MHS方法首先采用多个过滤(Filter)方法进行数据筛选去除噪声基因,加入两个局部操作算子(单分子碰撞和多分子碰撞)来提高和谐搜索算法的局部搜索性能。实验结果表明,MHS算法结合K近邻(KNN)分类器在肺癌微阵列数据集上与对比算法相比,不仅可以有效去除无关基因,而且获得的分类精度也优于对比算法,实验对比验证了MHS算法在肺癌数据处理工作中具有较好的性能。