论文部分内容阅读
摘要:针对急性白血病、小圆蓝色细胞肿瘤难以用传统诊断方法做出快速判断的问题,提出基于Logistic并使用ReliefF作为特征提取算法的肿瘤识别方法。对急性白血病数据集,提取出排序前2的特征并用Logistic分类器进行分类,得到97.06%的预测准确率。对小圆蓝色细胞肿瘤数据集,提取出排序前17的特征再用分类器进行分类,得到了100%的预测准确率。
关键词:Logistic;ReliefF;AML-ALL;SRBCT
1概述
在我國,恶性肿瘤的世标发病率、死亡率、死亡发病比均高于世界平均水平,已成为严重威胁中国居民健康和社会发展的重要公共卫生问题。根据近几十年分子生物学的研究结果表明,肿瘤的发生发展是多基因、多步骤、多阶段的复杂过程。目前普遍采用的传统病理学的诊断方法采用细胞形态学对肿瘤进行诊断,过程简便易行,却带有很大程度上的主观性,个人误差难以排除。而后基因芯片等高通量技术的发展弥补了这一严重的局限性。
利用基因芯片技术,可以一次性同时检测成千上万个基因的表达值,生成包含成千上万个基因表达值的基因表达谱,应用于对肿瘤的分类、基因的功能研究、观察药物对肿瘤细胞基因表达谱的影响等各方面,在癌症的诊断和治疗中起着重要作用。但基因表达数据通常具有数据量大、维数高、样本小、非线性的特点,给后期的数据处理带来巨大挑战,每个样本均包含了所有的基因表达值,却只有少数基因与肿瘤分类相关。因此,在数据处理过程中,需要有效的挑选出少量的特征基因,消除噪声及冗余基因,以此来降低样本维数,提高分类器性能。
本文使用经典的过滤式评估算法ReliefF对数据进行特征选择,结合Logistic分类器对Golub等收集的急性白血病基因表达普和Khan等收集的SRBCT基因表达谱进行相关实验研究,以较少的特征维数获得较好的分类结果。
2材料与方法
2.1数据集
2.1.1ALL-AML数据集
Leukemia白血病是造血系统的一种恶性肿瘤,表现为骨髓、淋巴结等造血系统中一种或多种血细胞成分发生恶性肿瘤,并浸入体内各脏器组织,导致正常造血细胞受抑制,产生各种症状。在临床上,根据白血病细胞的形态及组织化学染色表现,可将此病分为急性淋巴细胞性白血病(Acute Lvmphoblastie Leukemia,ALLl以及急性髓细胞性白血病(Acute Myeloid Leukemia,AML)两大类。
本文采用的第一组数据集来自Golub等收集的急性白血病ALL-AML数据集。该数据集包含72个样本,每个样本包含7129条探针或基因的表达值,共由两种不同种类的白血病样本组成:47个急性淋巴白血病ALL样本和28个急性骨髓白血病AML样本。数据详情见表1。
2.1.2SRBCT数据集
小圆蓝细胞瘤(SRBCT)是一种恶性肿瘤,多发于儿童,具有四种亚型,分别是:尤因肉瘤fEwing%sarcoma,EWS),伯基特淋巴瘤(Burkitt%lymphoma,BL),成神经细胞瘤(Neuroblastoma,NB)和横纹肌肉瘤(Rhabdomyosarcoma,RMS)。这四种亚型在显微镜下这些肿瘤细胞模样非常相似,治疗方案各不相同,目前尚未找到能精确区分这四种亚型的单一生物学或化学诊断方法。
关键词:Logistic;ReliefF;AML-ALL;SRBCT
1概述
在我國,恶性肿瘤的世标发病率、死亡率、死亡发病比均高于世界平均水平,已成为严重威胁中国居民健康和社会发展的重要公共卫生问题。根据近几十年分子生物学的研究结果表明,肿瘤的发生发展是多基因、多步骤、多阶段的复杂过程。目前普遍采用的传统病理学的诊断方法采用细胞形态学对肿瘤进行诊断,过程简便易行,却带有很大程度上的主观性,个人误差难以排除。而后基因芯片等高通量技术的发展弥补了这一严重的局限性。
利用基因芯片技术,可以一次性同时检测成千上万个基因的表达值,生成包含成千上万个基因表达值的基因表达谱,应用于对肿瘤的分类、基因的功能研究、观察药物对肿瘤细胞基因表达谱的影响等各方面,在癌症的诊断和治疗中起着重要作用。但基因表达数据通常具有数据量大、维数高、样本小、非线性的特点,给后期的数据处理带来巨大挑战,每个样本均包含了所有的基因表达值,却只有少数基因与肿瘤分类相关。因此,在数据处理过程中,需要有效的挑选出少量的特征基因,消除噪声及冗余基因,以此来降低样本维数,提高分类器性能。
本文使用经典的过滤式评估算法ReliefF对数据进行特征选择,结合Logistic分类器对Golub等收集的急性白血病基因表达普和Khan等收集的SRBCT基因表达谱进行相关实验研究,以较少的特征维数获得较好的分类结果。
2材料与方法
2.1数据集
2.1.1ALL-AML数据集
Leukemia白血病是造血系统的一种恶性肿瘤,表现为骨髓、淋巴结等造血系统中一种或多种血细胞成分发生恶性肿瘤,并浸入体内各脏器组织,导致正常造血细胞受抑制,产生各种症状。在临床上,根据白血病细胞的形态及组织化学染色表现,可将此病分为急性淋巴细胞性白血病(Acute Lvmphoblastie Leukemia,ALLl以及急性髓细胞性白血病(Acute Myeloid Leukemia,AML)两大类。
本文采用的第一组数据集来自Golub等收集的急性白血病ALL-AML数据集。该数据集包含72个样本,每个样本包含7129条探针或基因的表达值,共由两种不同种类的白血病样本组成:47个急性淋巴白血病ALL样本和28个急性骨髓白血病AML样本。数据详情见表1。
2.1.2SRBCT数据集
小圆蓝细胞瘤(SRBCT)是一种恶性肿瘤,多发于儿童,具有四种亚型,分别是:尤因肉瘤fEwing%sarcoma,EWS),伯基特淋巴瘤(Burkitt%lymphoma,BL),成神经细胞瘤(Neuroblastoma,NB)和横纹肌肉瘤(Rhabdomyosarcoma,RMS)。这四种亚型在显微镜下这些肿瘤细胞模样非常相似,治疗方案各不相同,目前尚未找到能精确区分这四种亚型的单一生物学或化学诊断方法。