论文部分内容阅读
摘 要:卵巢癌是我国女性发病率较高的癌症之一,并且有逐年增加的趋势。基因芯片被广泛用于癌症早期检测,癌症的早发现可以确保生存率增加超过97%。本文针对基因芯片的质谱数据,提出了一种基于主成分分析(PCA)和支持向量机(SVM)的卵巢癌预测方法。重点进行了模型设计和仿真对比实验。实验结果表明:本文方法在预测精度上达到了89.1%,而只消耗4.791s的CPU时间,是一个较好的平衡点。
关键词:
主成分分析;支持向量机;卵巢癌预测;基因芯片
DOI:10.15938/j.jhust.2021.03.014
中图分类号: TP391.4
文献标志码: A
文章编号: 1007-2683(2021)03-0099-04
A Cancer Prediction Method Based on Principal Component Analysis
and Support Vector Machine
LIU Yong-chao1,2 , WANG Wei-bing1, XU Qian3, GUO Yan-hong2, WU Chao2
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.The Second Affiliated Hospital of Qiqihar Medical University,Qiqihar 161000,China:
3.Distribution and Operation Inspection Room of Harbin Branch of Heilongjiang Power Supply Company,Harbin 150001, China)
Abstract:Ovarian cancer is one of the most common cancers contracted by women in China, and it has a tendency to increase year by year. The gene chip is widely applied to the early detection of cancer, which ensures an increase in survival rate over 97%. In this paper, by virtue of a mass spectrometry data of gene chip, an ovarian cancer prediction method based on principal component analysis (PCA) and support vector machine (SVM) is proposed. The model is designed and the simulation comparison experiments are carried out, which are at the core of the research. The experimental results verify that the proposed method has presented the superior performance with prediction accuracy of 89.1%and CPU time of 4.791s.
Keywords:principal component analysis; support vector machine; ovarian cancer prediction; gene chip
0 引 言
癌癥是人类生命和健康的主要威胁之一,是世界上最致命的疾病[1]。在我国,癌症患者逐年增加。在ACS的《2018年全球癌症统计数据》报告中指出:癌症发病率和死亡率我国均居全球第一!2018年在全球新增癌症患者1810万人,我国占21%;全球死于癌症的人数是960万人,我国占23.9%。卵巢癌是我国女性发病率较高的癌症之一,并且有逐年增加的趋势,虽然可以通过降低风险因素来预防,但仍高发。癌症的诊断是一项极其艰巨而复杂的任务,但早期发现癌症可以确保生存率增加超过97%[2]。可见,卵巢癌早期发现对我国女性健康尤为重要。
基因芯片是利用核酸互补杂交原理按二维结构将大量探针分子固定于支持物上,与标记的样品分子进行杂交反应,通过对杂交信号的监测分析获取样品分子的数量和序列信息[3]。目前,广泛应用基因芯片检测各种癌症,但其产生的微阵列数据具有:样本小、数据量大、维度高等特点,很容易导致预测癌症存在与否的分类失败。所以,在预测前必须对数据进行特征提取,这是提高分类质量和降低分类算法的计算复杂性的重要步骤。
目前有很多机器学习的方法用于各种癌症分类。文[4]采用一个无监督的基因过滤算法以降低用于分型计算的数据噪声,首先提出了一个概率模型对样本中的分类结构进行建模,然后基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因,最后根据选出的特征基因做聚类来进行癌症分类。文[5]提出了一项关于前列腺癌疾病的调查研究,并使用神经模糊分类系统进行模式识别,以便尽早进行治疗计划。文[6]通过基于内核的学习和特征选择提出了完整的癌症诊断过程。使用SVM-RFE用于预过滤基因。文[7]提出了对数回归的方法来预测和分类癌症。文[8]提出了使用贝叶斯网络方法来预测和分类癌症。文[9]首先使用基因的分类信息指数来选取分类特征基因,去除无关基因进行数据的预处理,然后用支持向量机来进行癌症的分类预测。文[10]提出了一种基于SVM模型诊断卵巢癌,使用模糊粗糙集理论进行特征选择,使用SVM来处理复杂真实的数据,进行快速学习,此方法具有良好的分类性能。本文提出一种基于PCA和SVM的卵巢癌预测方法,使用PCA进行卵巢癌微阵列数据样本的特征提取,使用适合小样本分类的SVM作为区分卵巢癌患者和非卵巢癌患者的分类器。 1 预测模型
假设总共有n个卵巢癌患者的微阵列数据记录,每个记录包含p个特征属性。根据每个患者的特征数据,通过分类实现预测患者是病态还是正常。本文提出的方法如图1所示,其中,PCA可以在保证一定的信息利用率的基础上提取简化特征属性的维数;SVM用于分类及预测。对卵巢癌患者的微阵列数据而言,一个数据包含上万个或几万个特征属性,可见使用PCA对这样的数据进行降维处理是有必要的。从模型的数据流上说,PCA输出的数据作为SVM的输入数据,看似串行,实这则并行。对单个数据而言,PCA和SVM的工作是串行级的;对整体数据而言,PCA和SVM的工作是同步的,并行级的,SVM处理上一个数据的同时PCA可以降维下一个数据,这样可以提高模型的预测效率。
1.1 数据预处理
首先,处理缺失值和属性的冗余值。历史数据可能存在一些遗漏或冗余的属性值,这可能会影响分类的准确性和计算速度。
其次,数据标准化,消除其尺寸差异的影响。根据原始样本中存在n个具有p个属性的数据,构造n×p的变量矩阵,每个列在矩阵中标准化,获得归一化值zij,其计算方法为
zij=xij-jsj (i=1,2,…,n j=1,2,…,p)(1)
j=∑ni=1xijn (i=1,2,…,n j=1,2,…,p)(2)
sj=∑ni=1(xij-j)2n-1 (i=1,2,…,n j=1,2,…,p)(3)
1.2 主成分分析
属性中的太多变量将增加大量的计算负载。PCA可以删除相关变量,并创建一些彼此无关的新变量。更重要的是,原始信息能最大限度地被这些新变量保留。PCA的实现过程描述如下:
计算标准化变量矩阵Z的协方差矩阵C,即
C=ZZTn-1(4)
计算协方差矩阵C的特征方程|C-λIp|=0,得到特征值λj和相应的特征向量αj,其中j=1,2,…,p。
根据式(5)确定主成分k的数值,确保信息利用率高于95%。
∑kj=1λj∑nj=1λj≥95%(5)
特征值按从大到小排列,取前k个最大特征值对应的特征向量,得到一个k行p列的特征向量矩阵V。
根据式(6)计算得到n行k列的矩阵X,这个矩阵X就是降维后的变量矩阵,包含k个主要成分的数据。
X=(VZT)T=ZVT(6)
1.3 支持向量机
SVM是一种判别分类器,由分类超平面所定义。也就是说,使用标记的训练样本训练模型,然后通过输出最佳超平面来实现测试样本分类。SVM描述如下:
卵巢癌预测问题为非线性问题,所以SVM的目标函数f(x)表示为
f(x)=wT·φ(x)+b(7)
其中:x为输入;w为权向量;b为偏置向量。把输入数据映射到高维数据空间。
利用极大化间隔的求解思想,最终得到分类决策函数为
f(x)=∑ni=1αiyiK(xi,x)+b(8)
其中:K(xi,x)为核函数,表示映射到的高维特征空間的两个点的内积<φ(xi)·φ(x)>。这里选择学习能力强且误差小的Gauss径向基(RBF)核函数为
K(xi,x)=exp(-‖xi-x‖22σ2)(9)
其中,σ为核函数系数,具有高的灵活性。
2 仿真实验与分析
2.1 数据集
本文所有仿真实验使用同一个数据集,是来自于AICR的卵巢癌微阵列质谱数据集,样本共有253个,包括卵巢癌患者阳性(病态)和阴性(健康),且每个样本的属性有15000之多。在这253个卵巢癌数据样本中随机选其中的170个为训练集,剩余的83个为测试集,卵巢癌微阵列质谱数据如表1所示。
2.2 仿真实验设计
设计3个仿真实验来证明本文提出的基于PCA和SVM的癌症预测方法的有效性,即主成分k值确定、预测精度和算法效率。
仿真实验中的计算使用安装了Libsvm-3.21工具包的MATLAB R2010b软件完成。模型中的SVM参数随机选择,要求C∈[0,100]、σ∈[0.1,10],用MATLAB仿真的时候用经验值或试凑法调节。
仿真实验都是在实验室的PC机上完成。PC机的OS为Win7 Sp1,硬件运行环境为:处理器(CPU):Intel(R) Core(TM) i3-3110 CPU @ 2.4GHz,物理四核;内存(RAM):8.00GB;磁盘驱动器:ATA WDC WD5000LPVX-0;显示适配器:NVIDIA GeForce GT 635M。
2.3 结果与分析
原始数据集总共有15000个属性。通过本文1.2节计算协方差矩阵特征方程的特征值和特征向量的方法进行了主成分分析,经过分析,数据的特征值大大减少,290个属性可以保证100%的信息利用率(通过计算贡献率可以近似获得)。在这个实验中,我们相信95%的信息利用率可以确保结果的正确性,即最少由98个数据属性表示。然后,根据式(5)计算主成分k值。信息利用率选择如图2所示。 在图2中,属性个数被表示为横轴,属性个数对应的信息利用率被表示为纵轴。
在数据集上,应用所提出的方法进行预测实验,并与数据集上的KNN和ESOM等典型分类方法在预测精度上进行了比较,如图3所示。可以看出,预测精度上最高是本文所提出的方法,预测精度为89.1%,高于KNN的71.7%和ESOM的62.5%。
通过消耗的CPU时间来比较本文方法、KNN和ESOM的效率,CPU时间对比如图4所示。由于本文中使用的数据集拥有大量的属性值,因此需要花费很长时间来训练和预测分类结果。在这3种方法中,KNN是最耗时的,所需的CPU时间高达1225.433s。由于本文方法和ESOM都对数据集进行了降维处理,所以消耗的CPU时间较少。本文方法应用了主成分分析,效率得到了极大的提高,只消耗4.791s的CPU时间。 3 结 论
根据微阵列质谱数据的特点,本文提出一种基于主成分分析(PCA)和支持向量机(SVM)的卵巢
癌预测方法。使用PCA在预测前对数据进行特征提取,来提高分类质量和降低分类算法的计算复杂性。使用SVM作为区分卵巢癌阳性和阴性的分类器,其更适合小样本分类。仿真实验结果表明:本文方法在预测精度上达到了89.1%,而只消耗4.791s的CPU时间,是一个较好的平衡点,但仍需要在其他卵巢癌数据集上进行验证。同时,本文方法也可以应用在其他高维数据分类的领域。
参 考 文 献:
[1] SIEGEL R L, MILLER K D,FEDEWA S A, et al. Colorectal Cancer Statistics, 2017.[J]. CA: A Cancer Journal for Clinicians, 2017, 67(3):177.
[2] MILLER K D, SIEGEL R L, LIN C C, et al.Cancer Treatment and Survivorship Statistics, 2016[J]. CA: A Cancer Journal for Clinicians, 2016, 66(4):271.
[3] 沈锐, 谢杨, 李磊, 等. 基因芯片技术在于癌症诊断研究发展[J]. 世界最新医学信息文摘, 2017,17(33):124.
SHEN Rui, XIE Yang, LI Lei, et al.Gene Chip Technology Lies in the Development of Cancer Diagnosis Research[J]. World Latest Medicine Information, 2017,17(33):124.
[4] 李泽, 包雷, 黄英武, 等. 基于基因表达谱的肿瘤分型和特征基因选取[J]. 生物物理学报, 2002, 33(4): 413.
LI Ze, BAO Lei, HUANG Yingwu, et al. Cancer Subtype Discovery and Informative Gene Identification with Gene Expression Profiles[J]. Acta Biophysica Sinica, 2002, 33(4): 413.
[5] SUBRATA Kar, MAJUMDER D. Dutta. An Investigative Study on Early Diagnosis of Prostate Cancer Using Neuro-fuzzy Classification Systemfor Pattern Recognition[J]. International Journal of Fuzzy Systems, 2016,19(2): 1.
[6] MEDJAHED, SEYYID Ahmed. Kernel-based Learning and Featureselection Analysis for Cancer Diagnosis[J]. Applied Soft Computing , 2017,51: 39.
[7] ZHOU X B, LIU K Y, WONG S T C. Cancer Classification and Prediction Using Logistic Regression with Bayesian Gene Selection[J]. Journal of Biomedical Informatics, 2004,37: 249.
[8] HELMAN P, VEROFF R, ATLAS S R, et al. A Bayesian Network Classification Methodology for Gene Expression Data [J]. J. Comput. Biol., 2004, 11: 581.
[9] 李穎新, 阮晓钢. 基于基因表达谱的肿瘤亚型识别与分类特征基因选取研究[J]. 电子学报, 2005, 33(4): 651.
LI Yingxin, RUAN Xiaogang. Cancer Subtype Identification and Feature Gene Selection with Gene Expression Profiles[J]. Acta Electronica Sinica, 2005, 33(4): 651.
[10]BADRIA, F A. A Framework for Ovarian Cancer Diagnosis Basedon Amino Acids Using Fuzzy-rough Sets with SVM[J]. International Con-ference on Advanced Machine Learning Technologies and Applications, 2014.
(编辑:王 萍)
关键词:
主成分分析;支持向量机;卵巢癌预测;基因芯片
DOI:10.15938/j.jhust.2021.03.014
中图分类号: TP391.4
文献标志码: A
文章编号: 1007-2683(2021)03-0099-04
A Cancer Prediction Method Based on Principal Component Analysis
and Support Vector Machine
LIU Yong-chao1,2 , WANG Wei-bing1, XU Qian3, GUO Yan-hong2, WU Chao2
(1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
2.The Second Affiliated Hospital of Qiqihar Medical University,Qiqihar 161000,China:
3.Distribution and Operation Inspection Room of Harbin Branch of Heilongjiang Power Supply Company,Harbin 150001, China)
Abstract:Ovarian cancer is one of the most common cancers contracted by women in China, and it has a tendency to increase year by year. The gene chip is widely applied to the early detection of cancer, which ensures an increase in survival rate over 97%. In this paper, by virtue of a mass spectrometry data of gene chip, an ovarian cancer prediction method based on principal component analysis (PCA) and support vector machine (SVM) is proposed. The model is designed and the simulation comparison experiments are carried out, which are at the core of the research. The experimental results verify that the proposed method has presented the superior performance with prediction accuracy of 89.1%and CPU time of 4.791s.
Keywords:principal component analysis; support vector machine; ovarian cancer prediction; gene chip
0 引 言
癌癥是人类生命和健康的主要威胁之一,是世界上最致命的疾病[1]。在我国,癌症患者逐年增加。在ACS的《2018年全球癌症统计数据》报告中指出:癌症发病率和死亡率我国均居全球第一!2018年在全球新增癌症患者1810万人,我国占21%;全球死于癌症的人数是960万人,我国占23.9%。卵巢癌是我国女性发病率较高的癌症之一,并且有逐年增加的趋势,虽然可以通过降低风险因素来预防,但仍高发。癌症的诊断是一项极其艰巨而复杂的任务,但早期发现癌症可以确保生存率增加超过97%[2]。可见,卵巢癌早期发现对我国女性健康尤为重要。
基因芯片是利用核酸互补杂交原理按二维结构将大量探针分子固定于支持物上,与标记的样品分子进行杂交反应,通过对杂交信号的监测分析获取样品分子的数量和序列信息[3]。目前,广泛应用基因芯片检测各种癌症,但其产生的微阵列数据具有:样本小、数据量大、维度高等特点,很容易导致预测癌症存在与否的分类失败。所以,在预测前必须对数据进行特征提取,这是提高分类质量和降低分类算法的计算复杂性的重要步骤。
目前有很多机器学习的方法用于各种癌症分类。文[4]采用一个无监督的基因过滤算法以降低用于分型计算的数据噪声,首先提出了一个概率模型对样本中的分类结构进行建模,然后基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因,最后根据选出的特征基因做聚类来进行癌症分类。文[5]提出了一项关于前列腺癌疾病的调查研究,并使用神经模糊分类系统进行模式识别,以便尽早进行治疗计划。文[6]通过基于内核的学习和特征选择提出了完整的癌症诊断过程。使用SVM-RFE用于预过滤基因。文[7]提出了对数回归的方法来预测和分类癌症。文[8]提出了使用贝叶斯网络方法来预测和分类癌症。文[9]首先使用基因的分类信息指数来选取分类特征基因,去除无关基因进行数据的预处理,然后用支持向量机来进行癌症的分类预测。文[10]提出了一种基于SVM模型诊断卵巢癌,使用模糊粗糙集理论进行特征选择,使用SVM来处理复杂真实的数据,进行快速学习,此方法具有良好的分类性能。本文提出一种基于PCA和SVM的卵巢癌预测方法,使用PCA进行卵巢癌微阵列数据样本的特征提取,使用适合小样本分类的SVM作为区分卵巢癌患者和非卵巢癌患者的分类器。 1 预测模型
假设总共有n个卵巢癌患者的微阵列数据记录,每个记录包含p个特征属性。根据每个患者的特征数据,通过分类实现预测患者是病态还是正常。本文提出的方法如图1所示,其中,PCA可以在保证一定的信息利用率的基础上提取简化特征属性的维数;SVM用于分类及预测。对卵巢癌患者的微阵列数据而言,一个数据包含上万个或几万个特征属性,可见使用PCA对这样的数据进行降维处理是有必要的。从模型的数据流上说,PCA输出的数据作为SVM的输入数据,看似串行,实这则并行。对单个数据而言,PCA和SVM的工作是串行级的;对整体数据而言,PCA和SVM的工作是同步的,并行级的,SVM处理上一个数据的同时PCA可以降维下一个数据,这样可以提高模型的预测效率。
1.1 数据预处理
首先,处理缺失值和属性的冗余值。历史数据可能存在一些遗漏或冗余的属性值,这可能会影响分类的准确性和计算速度。
其次,数据标准化,消除其尺寸差异的影响。根据原始样本中存在n个具有p个属性的数据,构造n×p的变量矩阵,每个列在矩阵中标准化,获得归一化值zij,其计算方法为
zij=xij-jsj (i=1,2,…,n j=1,2,…,p)(1)
j=∑ni=1xijn (i=1,2,…,n j=1,2,…,p)(2)
sj=∑ni=1(xij-j)2n-1 (i=1,2,…,n j=1,2,…,p)(3)
1.2 主成分分析
属性中的太多变量将增加大量的计算负载。PCA可以删除相关变量,并创建一些彼此无关的新变量。更重要的是,原始信息能最大限度地被这些新变量保留。PCA的实现过程描述如下:
计算标准化变量矩阵Z的协方差矩阵C,即
C=ZZTn-1(4)
计算协方差矩阵C的特征方程|C-λIp|=0,得到特征值λj和相应的特征向量αj,其中j=1,2,…,p。
根据式(5)确定主成分k的数值,确保信息利用率高于95%。
∑kj=1λj∑nj=1λj≥95%(5)
特征值按从大到小排列,取前k个最大特征值对应的特征向量,得到一个k行p列的特征向量矩阵V。
根据式(6)计算得到n行k列的矩阵X,这个矩阵X就是降维后的变量矩阵,包含k个主要成分的数据。
X=(VZT)T=ZVT(6)
1.3 支持向量机
SVM是一种判别分类器,由分类超平面所定义。也就是说,使用标记的训练样本训练模型,然后通过输出最佳超平面来实现测试样本分类。SVM描述如下:
卵巢癌预测问题为非线性问题,所以SVM的目标函数f(x)表示为
f(x)=wT·φ(x)+b(7)
其中:x为输入;w为权向量;b为偏置向量。把输入数据映射到高维数据空间。
利用极大化间隔的求解思想,最终得到分类决策函数为
f(x)=∑ni=1αiyiK(xi,x)+b(8)
其中:K(xi,x)为核函数,表示映射到的高维特征空間的两个点的内积<φ(xi)·φ(x)>。这里选择学习能力强且误差小的Gauss径向基(RBF)核函数为
K(xi,x)=exp(-‖xi-x‖22σ2)(9)
其中,σ为核函数系数,具有高的灵活性。
2 仿真实验与分析
2.1 数据集
本文所有仿真实验使用同一个数据集,是来自于AICR的卵巢癌微阵列质谱数据集,样本共有253个,包括卵巢癌患者阳性(病态)和阴性(健康),且每个样本的属性有15000之多。在这253个卵巢癌数据样本中随机选其中的170个为训练集,剩余的83个为测试集,卵巢癌微阵列质谱数据如表1所示。
2.2 仿真实验设计
设计3个仿真实验来证明本文提出的基于PCA和SVM的癌症预测方法的有效性,即主成分k值确定、预测精度和算法效率。
仿真实验中的计算使用安装了Libsvm-3.21工具包的MATLAB R2010b软件完成。模型中的SVM参数随机选择,要求C∈[0,100]、σ∈[0.1,10],用MATLAB仿真的时候用经验值或试凑法调节。
仿真实验都是在实验室的PC机上完成。PC机的OS为Win7 Sp1,硬件运行环境为:处理器(CPU):Intel(R) Core(TM) i3-3110 CPU @ 2.4GHz,物理四核;内存(RAM):8.00GB;磁盘驱动器:ATA WDC WD5000LPVX-0;显示适配器:NVIDIA GeForce GT 635M。
2.3 结果与分析
原始数据集总共有15000个属性。通过本文1.2节计算协方差矩阵特征方程的特征值和特征向量的方法进行了主成分分析,经过分析,数据的特征值大大减少,290个属性可以保证100%的信息利用率(通过计算贡献率可以近似获得)。在这个实验中,我们相信95%的信息利用率可以确保结果的正确性,即最少由98个数据属性表示。然后,根据式(5)计算主成分k值。信息利用率选择如图2所示。 在图2中,属性个数被表示为横轴,属性个数对应的信息利用率被表示为纵轴。
在数据集上,应用所提出的方法进行预测实验,并与数据集上的KNN和ESOM等典型分类方法在预测精度上进行了比较,如图3所示。可以看出,预测精度上最高是本文所提出的方法,预测精度为89.1%,高于KNN的71.7%和ESOM的62.5%。
通过消耗的CPU时间来比较本文方法、KNN和ESOM的效率,CPU时间对比如图4所示。由于本文中使用的数据集拥有大量的属性值,因此需要花费很长时间来训练和预测分类结果。在这3种方法中,KNN是最耗时的,所需的CPU时间高达1225.433s。由于本文方法和ESOM都对数据集进行了降维处理,所以消耗的CPU时间较少。本文方法应用了主成分分析,效率得到了极大的提高,只消耗4.791s的CPU时间。 3 结 论
根据微阵列质谱数据的特点,本文提出一种基于主成分分析(PCA)和支持向量机(SVM)的卵巢
癌预测方法。使用PCA在预测前对数据进行特征提取,来提高分类质量和降低分类算法的计算复杂性。使用SVM作为区分卵巢癌阳性和阴性的分类器,其更适合小样本分类。仿真实验结果表明:本文方法在预测精度上达到了89.1%,而只消耗4.791s的CPU时间,是一个较好的平衡点,但仍需要在其他卵巢癌数据集上进行验证。同时,本文方法也可以应用在其他高维数据分类的领域。
参 考 文 献:
[1] SIEGEL R L, MILLER K D,FEDEWA S A, et al. Colorectal Cancer Statistics, 2017.[J]. CA: A Cancer Journal for Clinicians, 2017, 67(3):177.
[2] MILLER K D, SIEGEL R L, LIN C C, et al.Cancer Treatment and Survivorship Statistics, 2016[J]. CA: A Cancer Journal for Clinicians, 2016, 66(4):271.
[3] 沈锐, 谢杨, 李磊, 等. 基因芯片技术在于癌症诊断研究发展[J]. 世界最新医学信息文摘, 2017,17(33):124.
SHEN Rui, XIE Yang, LI Lei, et al.Gene Chip Technology Lies in the Development of Cancer Diagnosis Research[J]. World Latest Medicine Information, 2017,17(33):124.
[4] 李泽, 包雷, 黄英武, 等. 基于基因表达谱的肿瘤分型和特征基因选取[J]. 生物物理学报, 2002, 33(4): 413.
LI Ze, BAO Lei, HUANG Yingwu, et al. Cancer Subtype Discovery and Informative Gene Identification with Gene Expression Profiles[J]. Acta Biophysica Sinica, 2002, 33(4): 413.
[5] SUBRATA Kar, MAJUMDER D. Dutta. An Investigative Study on Early Diagnosis of Prostate Cancer Using Neuro-fuzzy Classification Systemfor Pattern Recognition[J]. International Journal of Fuzzy Systems, 2016,19(2): 1.
[6] MEDJAHED, SEYYID Ahmed. Kernel-based Learning and Featureselection Analysis for Cancer Diagnosis[J]. Applied Soft Computing , 2017,51: 39.
[7] ZHOU X B, LIU K Y, WONG S T C. Cancer Classification and Prediction Using Logistic Regression with Bayesian Gene Selection[J]. Journal of Biomedical Informatics, 2004,37: 249.
[8] HELMAN P, VEROFF R, ATLAS S R, et al. A Bayesian Network Classification Methodology for Gene Expression Data [J]. J. Comput. Biol., 2004, 11: 581.
[9] 李穎新, 阮晓钢. 基于基因表达谱的肿瘤亚型识别与分类特征基因选取研究[J]. 电子学报, 2005, 33(4): 651.
LI Yingxin, RUAN Xiaogang. Cancer Subtype Identification and Feature Gene Selection with Gene Expression Profiles[J]. Acta Electronica Sinica, 2005, 33(4): 651.
[10]BADRIA, F A. A Framework for Ovarian Cancer Diagnosis Basedon Amino Acids Using Fuzzy-rough Sets with SVM[J]. International Con-ference on Advanced Machine Learning Technologies and Applications, 2014.
(编辑:王 萍)