论文部分内容阅读
癌症是危害人类健康的最大杀手。研究发现,即使在没有任何症状的早期阶段,癌症患者的蛋白水平已经发生变化,这些发生了变化的特异蛋白质被称为疾病的“生物标志物”(Biomarker),不断发现的特异性肿瘤标志物更为攻克癌症带来新希望。理论上,如果可以洞悉蛋白质的奥秘,便能了解疾病(比如肿瘤)发生发展的机理,从而实现对疾病的早期诊断和早期治疗。但是,绝大多数的蛋白对于癌症诊断来说是多余的、不相关的,其仅与少部分蛋白即生物标志物相关。如何筛选出这些生物标志物,成为疾病蛋白组学研究的一个热点问题。从模式识别和机器学习角度看,基于SELDI-TOF-MS的蛋白位点选择可以归为特征选择问题。线性判别分析(LDA)是模式识别的一个经典的特征提取算法。但是,SELDI-TOF-MS数据本身具有维数高、样本数量少和数据特征位点非独立的特点,将会使LDA算法的类内散布矩阵奇异,从而导致算法失效。另外,特征提取相对于特征选择,会将特征转换到新的领域,使产生的新特征更具判别性、更有利于分类,但是由此产生的新特征会难以体现生物学意义。针对上述问题,本文考虑结合质谱的频率域特征,采用小波变换提取数据的细节信息,降低特征维数与计算量。采用零空间LDA算法解决“小样本”问题,运用该特征提取算法进行特征选择,以保留生物学意义。并且对其运用递归框架,降低挑出特征间的相关性。从而挑选出具有较高分辨率且具有生物学意义的原始蛋白位点。本研究选用了卵巢癌、前列腺癌公共样本集以及由浙江省肿瘤医院提供的乳腺癌临床样本进行分析和数值实验。在自身陈述结果的基础上,与其他经典方法从分类性能和相关性等方面进行对比。实验结果表明,1)与经典方法相比,本方法在多个样本数据集上所选取的特征子集不仅具有较好的分类性能,而且大大降低了挑选出的特征间相关性。2)本算法能够挑选出少量的几个具有较高判别性能,并具有生物学意义的蛋白位点。