论文部分内容阅读
肿瘤类型的识别一直是生物医学的研究重点和难点,传统方法是凭借医务人员的经验,通过观察患者的病变组织的特征以实现肿瘤类型的诊断,进而进行相应的治疗,然而这种诊断方法的缺点有判断的主观性和治疗的滞后性,即肿瘤患者的诊断发现通常在中晚期。因此,如何避免其不足已成为医学与生物信息学的热点研究,近年来,随着DNA微阵列技术的发展,运用不同条件下的基因表达水平——基因表达谱,来预测和诊断肿瘤是否发生以及识别肿瘤类型,从而在分子水平上观察肿瘤的发生、发展机制,找出不同肿瘤对应的病变基因,使之获取初期病变组织的肿瘤预测和治疗靶点。本文基于矩阵分解理论,对肿瘤基因表达谱数据进行了研究,将经典的与最新的矩阵分解方法引入到基因表达谱数据分析中,结合图论知识,从而让无结构信息的数字序列转变成具有结构信息的图结构,其主要研究了肿瘤基因表达谱数据的特征提取及类型的识别,并对实验结果给出了解释和算法性能的分析。内容如下:1.利用经典矩阵分解方法对肿瘤基因表达谱数据进行了分析,以肿瘤样本作为高维空间中的点,运用不同度量相似度的赋权方案构图,使之形成具有结构信息的图结构(其描述为矩阵形式),进而对其矩阵分解获取表征每个样本的特征信息,结合支持向量机(SVM)和K近邻(KNN)分类器完成了多组公开基因表达谱数据集的分类实验,并对结果进行了分析。2.根据近年来提出的非负矩阵理论,将其用于肿瘤基因表达谱数据的特征提取,首先粗略消除高维基因表达谱数据的噪声基因,将得到的基因子集进行非负矩阵分解(NMF),将高维空间中的肿瘤样本映射到一个低维空间,进一步消除了基因表达谱数据中冗余信息,再运用模糊C均值聚类(FCM)算法实现了两组基因表达谱数据集的聚类实验,实验结果验证了该方法的有效性。3.由于许多传统记分准则中包含了基因表达谱数据的一阶信息(均值)和二阶信息(方差),导致这些准则易受异常值影响(由环境、设备和人为操作等因素产生),导致对单个基因分类重要性打分偏离客观现实,以至于选取的特征基因子集来表征肿瘤样本不够合理而出现肿瘤类型识别错误。针对该不足,本文提出了基于点的代数连通强度(ACSP)和记分准则的特征基因选取方法,利用ACSP对单个基因进行预处理以获取更加可信的表达水平,再利用传统记分准则选取特征基因子集,通过SVM分类器对两组数据集的实验,其结果表明选取的特征基因更有效、更具客观性。