论文部分内容阅读
癌症是当今世界上危害人类健康乃至生命的主要疾病之一。科学证明,癌症早期发现对治疗癌症以及延缓癌细胞扩散有极大的帮助。基因微阵列技术的发展,使得癌症的诊断从形态学转向分子层面的研究,为临床诊断提供了一种快速准确的检测手段。然而基因微阵列数据具有“样本小、维度高、基因间具有很高的相关性”的特点,这样就容易造成分类器分类精度低、泛化能力弱、可解释性差等问题。因此,如何设计一种合理的分类机制能够克服上述问题,已经成为当今基因微阵列数据分类研究的热点。粗糙集理论是一种能够有效提取数据的分类信息的工具,它并不需要用户提供先验知识和附加信息,在实现特征降维的同时能够最大化的保留数据集的分类信息,同时对信息的不确定性能够给出良好的度量,而且利用粗糙集方法构建的分类器比一般的分类器具有更好的解释性。因此,利用粗糙分类器来分析基因表达数据分类问题具有良好的前景和不可比拟的优势。本文在总结前人研究成果的基础上,开展了对基因微阵列数据与粗糙分类器的研究工作,主要有以下几个方面:1、对粗糙分类器的分类信息进行描述。在粗糙集粒论框架下,对单个数据集分别给出利用对象刻画属性包含的分类信息和利用属性刻画对象包含的分类信息。2、将粗糙集方法中的两种基本约简策略——基于区分矩阵的策略和基于划分的启发式策略。对两种策略的优劣进行了简要分析,将优点加以融合,针对基因微阵列数据的特点设计了一种能够在稀疏数据中提取数据集规则的方法,以克服粗糙集方法在处理稀疏高维数据训练时间长、泛化能力低的缺点。通过在UCI数据集上的实验可以看出,本文提出的算法相比单纯的基于划分的策略在泛化能力方面有所提高,比基于区分矩阵的策略在时间方面有所提高。经过这样的修改,可以将其应用与基因微阵列数据分类仲。3、设计了一种对基因微阵列数据进行降维的方法,并以此设计了一种基因微阵列数据的粗糙分类器。通过利用主成分分析方法提取出基因微阵列数据中的基因主要表达方向,并以主要表达方向上的投影为中心对基因进行划分,利用规则提取方法提取规则,形成粗糙分类器。通过两常用基因表达数据对粗糙分类器进行检测。实验结果表明,该算法是有效的。本文围绕基因微阵列数据的特点,对粗糙集力法在解决稀疏高维数据的分类问题、基因微阵列数据降维方法等方面进行研究。本文取得的成果为利用粗糙集解决基因微阵列数据的分类问题提供了一种模式。