基于主成分分析和支持向量机的卵巢癌预测

来源 :哈尔滨理工大学学报 | 被引量 : 0次 | 上传用户:njcdst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:卵巢癌是我国女性发病率较高的癌症之一,并且有逐年增加的趋势。基因芯片被广泛用于癌症早期检测,癌症的早发现可以确保生存率增加超过97%。本文针对基因芯片的质谱数据,提出了一种基于主成分分析(PCA)和支持向量机(SVM)的卵巢癌预测方法。重点进行了模型设计和仿真对比实验。实验结果表明:本文方法在预测精度上达到了89.1%,而只消耗4.791s的CPU时间,是一个较好的平衡点。
  关键词:
  主成分分析;支持向量机;卵巢癌预测;基因芯片
  DOI:10.15938/j.jhust.2021.03.014
  中图分类号: TP391.4
  文献标志码: A
  文章编号: 1007-2683(2021)03-0099-04
  A Cancer Prediction Method Based on Principal Component Analysis
  and Support Vector Machine
  LIU Yong-chao1,2 , WANG Wei-bing1, XU Qian3, GUO Yan-hong2, WU Chao2
  (1.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China;
  2.The Second Affiliated Hospital of Qiqihar Medical University,Qiqihar 161000,China:
  3.Distribution and Operation Inspection Room of Harbin Branch of Heilongjiang Power Supply Company,Harbin 150001, China)
  Abstract:Ovarian cancer is one of the most common cancers contracted by women in China, and it has a tendency to increase year by year. The gene chip is widely applied to the early detection of cancer, which ensures an increase in survival rate over 97%. In this paper, by virtue of a mass spectrometry data of gene chip, an ovarian cancer prediction method based on principal component analysis (PCA) and support vector machine (SVM) is proposed. The model is designed and the simulation comparison experiments are carried out, which are at the core of the research. The experimental results verify that the proposed method has presented the superior performance with prediction accuracy of 89.1%and CPU time of 4.791s.
  Keywords:principal component analysis; support vector machine; ovarian cancer prediction; gene chip
  0 引 言
  癌癥是人类生命和健康的主要威胁之一,是世界上最致命的疾病[1]。在我国,癌症患者逐年增加。在ACS的《2018年全球癌症统计数据》报告中指出:癌症发病率和死亡率我国均居全球第一!2018年在全球新增癌症患者1810万人,我国占21%;全球死于癌症的人数是960万人,我国占23.9%。卵巢癌是我国女性发病率较高的癌症之一,并且有逐年增加的趋势,虽然可以通过降低风险因素来预防,但仍高发。癌症的诊断是一项极其艰巨而复杂的任务,但早期发现癌症可以确保生存率增加超过97%[2]。可见,卵巢癌早期发现对我国女性健康尤为重要。
  基因芯片是利用核酸互补杂交原理按二维结构将大量探针分子固定于支持物上,与标记的样品分子进行杂交反应,通过对杂交信号的监测分析获取样品分子的数量和序列信息[3]。目前,广泛应用基因芯片检测各种癌症,但其产生的微阵列数据具有:样本小、数据量大、维度高等特点,很容易导致预测癌症存在与否的分类失败。所以,在预测前必须对数据进行特征提取,这是提高分类质量和降低分类算法的计算复杂性的重要步骤。
  目前有很多机器学习的方法用于各种癌症分类。文[4]采用一个无监督的基因过滤算法以降低用于分型计算的数据噪声,首先提出了一个概率模型对样本中的分类结构进行建模,然后基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因,最后根据选出的特征基因做聚类来进行癌症分类。文[5]提出了一项关于前列腺癌疾病的调查研究,并使用神经模糊分类系统进行模式识别,以便尽早进行治疗计划。文[6]通过基于内核的学习和特征选择提出了完整的癌症诊断过程。使用SVM-RFE用于预过滤基因。文[7]提出了对数回归的方法来预测和分类癌症。文[8]提出了使用贝叶斯网络方法来预测和分类癌症。文[9]首先使用基因的分类信息指数来选取分类特征基因,去除无关基因进行数据的预处理,然后用支持向量机来进行癌症的分类预测。文[10]提出了一种基于SVM模型诊断卵巢癌,使用模糊粗糙集理论进行特征选择,使用SVM来处理复杂真实的数据,进行快速学习,此方法具有良好的分类性能。本文提出一种基于PCA和SVM的卵巢癌预测方法,使用PCA进行卵巢癌微阵列数据样本的特征提取,使用适合小样本分类的SVM作为区分卵巢癌患者和非卵巢癌患者的分类器。   1 预测模型
  假设总共有n个卵巢癌患者的微阵列数据记录,每个记录包含p个特征属性。根据每个患者的特征数据,通过分类实现预测患者是病态还是正常。本文提出的方法如图1所示,其中,PCA可以在保证一定的信息利用率的基础上提取简化特征属性的维数;SVM用于分类及预测。对卵巢癌患者的微阵列数据而言,一个数据包含上万个或几万个特征属性,可见使用PCA对这样的数据进行降维处理是有必要的。从模型的数据流上说,PCA输出的数据作为SVM的输入数据,看似串行,实这则并行。对单个数据而言,PCA和SVM的工作是串行级的;对整体数据而言,PCA和SVM的工作是同步的,并行级的,SVM处理上一个数据的同时PCA可以降维下一个数据,这样可以提高模型的预测效率。
  1.1 数据预处理
  首先,处理缺失值和属性的冗余值。历史数据可能存在一些遗漏或冗余的属性值,这可能会影响分类的准确性和计算速度。
  其次,数据标准化,消除其尺寸差异的影响。根据原始样本中存在n个具有p个属性的数据,构造n×p的变量矩阵,每个列在矩阵中标准化,获得归一化值zij,其计算方法为
  zij=xij-jsj (i=1,2,…,n j=1,2,…,p)(1)
  j=∑ni=1xijn (i=1,2,…,n j=1,2,…,p)(2)
  sj=∑ni=1(xij-j)2n-1 (i=1,2,…,n j=1,2,…,p)(3)
  1.2 主成分分析
  属性中的太多变量将增加大量的计算负载。PCA可以删除相关变量,并创建一些彼此无关的新变量。更重要的是,原始信息能最大限度地被这些新变量保留。PCA的实现过程描述如下:
  计算标准化变量矩阵Z的协方差矩阵C,即
  C=ZZTn-1(4)
  计算协方差矩阵C的特征方程|C-λIp|=0,得到特征值λj和相应的特征向量αj,其中j=1,2,…,p。
  根据式(5)确定主成分k的数值,确保信息利用率高于95%。
  ∑kj=1λj∑nj=1λj≥95%(5)
  特征值按从大到小排列,取前k个最大特征值对应的特征向量,得到一个k行p列的特征向量矩阵V。
  根据式(6)计算得到n行k列的矩阵X,这个矩阵X就是降维后的变量矩阵,包含k个主要成分的数据。
  X=(VZT)T=ZVT(6)
  1.3 支持向量机
  SVM是一种判别分类器,由分类超平面所定义。也就是说,使用标记的训练样本训练模型,然后通过输出最佳超平面来实现测试样本分类。SVM描述如下:
  卵巢癌预测问题为非线性问题,所以SVM的目标函数f(x)表示为
  f(x)=wT·φ(x)+b(7)
  其中:x为输入;w为权向量;b为偏置向量。把输入数据映射到高维数据空间。
  利用极大化间隔的求解思想,最终得到分类决策函数为
  f(x)=∑ni=1αiyiK(xi,x)+b(8)
  其中:K(xi,x)为核函数,表示映射到的高维特征空間的两个点的内积<φ(xi)·φ(x)>。这里选择学习能力强且误差小的Gauss径向基(RBF)核函数为
  K(xi,x)=exp(-‖xi-x‖22σ2)(9)
  其中,σ为核函数系数,具有高的灵活性。
  2 仿真实验与分析
  2.1 数据集
  本文所有仿真实验使用同一个数据集,是来自于AICR的卵巢癌微阵列质谱数据集,样本共有253个,包括卵巢癌患者阳性(病态)和阴性(健康),且每个样本的属性有15000之多。在这253个卵巢癌数据样本中随机选其中的170个为训练集,剩余的83个为测试集,卵巢癌微阵列质谱数据如表1所示。
  2.2 仿真实验设计
  设计3个仿真实验来证明本文提出的基于PCA和SVM的癌症预测方法的有效性,即主成分k值确定、预测精度和算法效率。
  仿真实验中的计算使用安装了Libsvm-3.21工具包的MATLAB R2010b软件完成。模型中的SVM参数随机选择,要求C∈[0,100]、σ∈[0.1,10],用MATLAB仿真的时候用经验值或试凑法调节。
  仿真实验都是在实验室的PC机上完成。PC机的OS为Win7 Sp1,硬件运行环境为:处理器(CPU):Intel(R) Core(TM) i3-3110 CPU @ 2.4GHz,物理四核;内存(RAM):8.00GB;磁盘驱动器:ATA WDC WD5000LPVX-0;显示适配器:NVIDIA GeForce GT 635M。
  2.3 结果与分析
  原始数据集总共有15000个属性。通过本文1.2节计算协方差矩阵特征方程的特征值和特征向量的方法进行了主成分分析,经过分析,数据的特征值大大减少,290个属性可以保证100%的信息利用率(通过计算贡献率可以近似获得)。在这个实验中,我们相信95%的信息利用率可以确保结果的正确性,即最少由98个数据属性表示。然后,根据式(5)计算主成分k值。信息利用率选择如图2所示。 在图2中,属性个数被表示为横轴,属性个数对应的信息利用率被表示为纵轴。
  在数据集上,应用所提出的方法进行预测实验,并与数据集上的KNN和ESOM等典型分类方法在预测精度上进行了比较,如图3所示。可以看出,预测精度上最高是本文所提出的方法,预测精度为89.1%,高于KNN的71.7%和ESOM的62.5%。
   通过消耗的CPU时间来比较本文方法、KNN和ESOM的效率,CPU时间对比如图4所示。由于本文中使用的数据集拥有大量的属性值,因此需要花费很长时间来训练和预测分类结果。在这3种方法中,KNN是最耗时的,所需的CPU时间高达1225.433s。由于本文方法和ESOM都对数据集进行了降维处理,所以消耗的CPU时间较少。本文方法应用了主成分分析,效率得到了极大的提高,只消耗4.791s的CPU时间。   3 结 论
  根据微阵列质谱数据的特点,本文提出一种基于主成分分析(PCA)和支持向量机(SVM)的卵巢
  癌预测方法。使用PCA在预测前对数据进行特征提取,来提高分类质量和降低分类算法的计算复杂性。使用SVM作为区分卵巢癌阳性和阴性的分类器,其更适合小样本分类。仿真实验结果表明:本文方法在预测精度上达到了89.1%,而只消耗4.791s的CPU时间,是一个较好的平衡点,但仍需要在其他卵巢癌数据集上进行验证。同时,本文方法也可以应用在其他高维数据分类的领域。
  参 考 文 献:
  [1] SIEGEL R L, MILLER K D,FEDEWA S A, et al. Colorectal Cancer Statistics, 2017.[J]. CA: A Cancer Journal for Clinicians, 2017, 67(3):177.
  [2] MILLER K D, SIEGEL R L, LIN C C, et al.Cancer Treatment and Survivorship Statistics, 2016[J]. CA: A Cancer Journal for Clinicians, 2016, 66(4):271.
  [3] 沈锐, 谢杨, 李磊, 等. 基因芯片技术在于癌症诊断研究发展[J]. 世界最新医学信息文摘, 2017,17(33):124.
  SHEN Rui, XIE Yang, LI Lei, et al.Gene Chip Technology Lies in the Development of Cancer Diagnosis Research[J]. World Latest Medicine Information, 2017,17(33):124.
  [4] 李泽, 包雷, 黄英武, 等. 基于基因表达谱的肿瘤分型和特征基因选取[J]. 生物物理学报, 2002, 33(4): 413.
  LI Ze, BAO Lei, HUANG Yingwu, et al. Cancer Subtype Discovery and Informative Gene Identification with Gene Expression Profiles[J]. Acta Biophysica Sinica, 2002, 33(4): 413.
  [5] SUBRATA Kar, MAJUMDER D. Dutta. An Investigative Study on Early Diagnosis of Prostate Cancer Using Neuro-fuzzy Classification Systemfor Pattern Recognition[J]. International Journal of Fuzzy Systems, 2016,19(2): 1.
  [6] MEDJAHED, SEYYID Ahmed. Kernel-based Learning and Featureselection Analysis for Cancer Diagnosis[J]. Applied Soft Computing , 2017,51: 39.
  [7] ZHOU X B, LIU K Y, WONG S T C. Cancer Classification and Prediction Using Logistic Regression with Bayesian Gene Selection[J]. Journal of Biomedical Informatics, 2004,37: 249.
  [8] HELMAN P, VEROFF R, ATLAS S R, et al. A Bayesian Network Classification Methodology for Gene Expression Data [J]. J. Comput. Biol., 2004, 11: 581.
  [9] 李穎新, 阮晓钢. 基于基因表达谱的肿瘤亚型识别与分类特征基因选取研究[J]. 电子学报, 2005, 33(4): 651.
  LI Yingxin, RUAN Xiaogang. Cancer Subtype Identification and Feature Gene Selection with Gene Expression Profiles[J]. Acta Electronica Sinica, 2005, 33(4): 651.
  [10]BADRIA, F A. A Framework for Ovarian Cancer Diagnosis Basedon Amino Acids Using Fuzzy-rough Sets with SVM[J]. International Con-ference on Advanced Machine Learning Technologies and Applications, 2014.
  (编辑:王 萍)
其他文献
金家金矿床位于辽宁省凌海市,包括刘屯和金屯两个矿体,矿石类型主要为硫化物石英脉型.对采取地表、坑道及钻孔中的含金石英脉样品进行包裹体测温和成分分析,以研究矿床形成的
犬尿喹啉酸(kynurenic acid,KYNA)作为内源性离子型谷氨酸受体和α7-烟碱型乙酰胆碱受体拮抗剂,一直被认为是一种神经调节剂,近年来,随着对KYNA与G蛋白偶联受体35和芳香烃受体的作用的进一步研究,发现KYNA与免疫系统、炎症和癌症密切相关。文章从KYNA对免疫细胞的免疫调节作用及机制入手,对KYNA近年来的研究进展作一综述,为未来KYNA在抗炎、调节免疫及相关疾病等方面的探讨提供
采用矿石薄片鉴定、矿物参数自动分析系统检测、电子探针分析对光石沟铀矿床铀的赋存状态进行研究。结果表明,光石沟铀矿床铀矿物主要为晶质铀矿,铀石、钍石、钍铀矿、含铀独居石含量很低。晶质铀矿主要呈稀疏浸染状分布在脉石矿物粒间,与钾长石连生密切,其次与黑云母连生,常见锆石和石英包体。铀石主要与方解石、黄铁矿(白铁矿)连生,组成细小环边断续分布于部分晶质铀矿周边。钍铀矿、钍石呈包裹体赋存于独居石中,独居石呈星散状分布于脉石矿物中。根据铀矿物的赋存状态,光石沟铀矿床成矿期可划分为岩浆期和热液期两个成矿期次,其中岩浆期
新生儿坏死性小肠结肠炎(necrotizing enteroeolitis of newborn,NEC)是发生在新生儿尤其是早产儿的急性坏死性肠道疾病,病因复杂,迄今仍未完全清楚,多数认为是多因素共同作用。越来越多的研究揭示肠道微生物群和NEC之间的相关性。微生物群在建立的过程中,受围生期多因素影响,导致其结构改变。研究证实微生物群结构改变与免疫系统改变有关,这为解答肠道微生物群在NEC发病中作
本文设计了一种基于机器人操作系统(ROS)和EtherCAT的双舵轮全向移动机器人控制系统。首先建立双舵轮对角驱动移动机器人运动学模型;采用Xenomai实时内核和IgHEtherCAT主站技术设计机器人底层驱动;在ROS平台下,以movebase为核心设计机器人导航规划层,导航数据源由惯性测量单元、编码器和激光雷达获取;利用Qt设计远程客户端人机界面,主要包含控制窗口和数据库等界面;最后,针对构建的全向移动机器人进行自主导航实验,实验结果验证了所设计系统的实用性。
目的分析关节假体周围感染患者血清C反应蛋白以及红细胞沉降率表达情况不符合美国肌肉骨骼感染协会(American Musculoskeletal Infection Association,MSIS)诊断标准的有关因素。方法选取2017年3月至2020年3月在菏泽市立医院因关节假体周围感染而进行住院治疗的50例患者作为研究对象。全部患者均在使用抗生素治疗前或手术治疗前进行血清红细胞沉降率以及血清C反
遥感影像数据用于城市土地利用分类由来已久,但这种方法难以识别建筑物的社会经济属性。而包含社交媒体数据在内的多源数据为城市研究与应用提供了丰富的数据资源,能有效弥补遥感影像数据无法体现建筑物内在特征的不足。以宁波市某广场为例,利用高分辨率遥感数据和兴趣点(POI)数据,结合主题模型,研究使用多源数据融合是否会对城市土地利用分类起到正向作用。结果表明,仅使用遥感影像数据的土地利用分类精度为70.21%
利用常规高空和地面探测、观测资料,地面加密自动站分钟数据资料以及榕江站、贵阳站C波段多普勒天气雷达探测资料,分析了2020年3月23日贵州强对流天气的环流形势,并重点分析了榕江飑线大风及长顺大冰雹雷达回波特征。结果表明:①此次飑线大风与大冰雹发生在南支槽前暖区,地面热低压发展推动辐合线移动、低层西南暖湿气流、中层干冷空气、合适的0℃和-20℃高度均为此次飑线大风及大冰雹的产生提供了有利的环境条件。②雷达回波大冰雹特征突出:强回波悬垂,有界弱回波区,弓形回波,中心强度强(60 dBz以上)且50 dBz强回
该文利用常规天气资料,物理量场资料,云图和雷达回波以及EC模式预报资料,分析了2020年4月16日08时—17日12时,葫芦岛地区出现的中雨,局部大雨过程的成因,结果表明:受高空冷涡东移南下与低涡共同影响,葫芦岛市建昌县最先开始降水,高空冷涡位于河北北部内蒙古一带,低空有低涡切变系统,低涡东南侧有偏南急流输送大量水汽北上,暖湿气流拐弯减速辐合,水汽辐合抬升,并且位于高空冷涡东南侧动力抬升区。辐合抬升结合动力抬升引发强降雨,从低空风切变、正涡度平流来看,动力条件非常好,葫芦岛地区位于倒槽顶部冷暖空气交汇处,
为更好地观察枸杞(Lycium barbarum)根系内生丛枝菌根真菌(arbuscular mycorrhiza fungi,AMF)和深色有隔内生真菌(dark seprate endophytes,DSE)侵染定殖特征,建立了一种枸杞根系内生真菌适宜的染色方法.将健康枸杞根样置于100 g/L的KOH溶液中90℃水浴90 min,接着加入质量分数30%的H_2O_2漂白5 min,室温下乳酸酸化5 min后,用5种染色剂(醋酸墨水、台盼蓝、酸性品红、苏丹红Ⅳ和苯胺蓝)于室温染色3~5 min,脱色剂