论文部分内容阅读
在数据挖掘、机器学习、统计模式识别等相关领域中,特征选择作为数据预处理的一种重要而常用的方式,是监督学习算法的一个重要组成步骤。随着计算机科学和技术的发展,图像处理、生物信息学等大规模问题不断涌现,对已有的特征选择算法提出了严峻的挑战,迫切需要适应大规模数据的准确性和运行效率等综合性能较好的特征选择算法。本文在大规模数据的特征选择以及特征选择在孤立肺结节计算机辅助诊断中的应用开展了一些研究工作,主要做了以下几部分的工作。首先,对目前特征选择的研究现状和问题进行了具体而深入的研究,分析了特征选择的定义、过程、分类以及常规的特征选择算法模型,提出了特征选择算法的选用技巧。其次,提出了一种新的基于粗集(RS)与遗传算法(GA)的特征选择算法。该方法将遗传算法(GA)与粗集(RS)思想有机结合进行特征选择,引入粗集中相关属性依赖度,设计了适应度函数和遗传算子,以提高算法的时间效率,并获得良好的搜索结果。同时,将该特征选择方法应用于图像特征分析,实验表明该方法达到了满意的效果,具有较高的效率。另外,基于Filter和Wrapper各自的优缺点,提出了一种基于蚁群算法的组合式特征选择算法。该算法将蚁群算法用于特征选择,将特征作为位置点,采用支持向量机分类器评价特征子集的性能,对特征(点)进行信息素的计算和更新,为特征与特征子集的选择提供了依据,避免了盲目搜索,使搜索算法能够快速收敛。在8组实际数据集中的实验结果表明,从分类正确率、特征子集大小以及运行时间等多个角度考察,该算法具有良好的综合性能。然后,把特征选择算法应用于孤立肺结节的计算机辅助CT诊断。系统地介绍了孤立肺结节计算机辅助诊断系统,描述了系统知识库的建立,研究了特征对于孤立肺结节诊断的重要性并提出了特征的层次化结构,同时将本文提出的两个特征选择算法在人工数据集上做了实验,选择的特征较真实地反映了医学诊断依据并获得不错的分类效果。本文最后对研究工作进行了总结,提出了今后进一步的研究方向。