面向肿瘤基因组学数据的分类算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:c2825015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是严重威胁人类生命健康的主要疾病之一,其发生发展是多个基因逐步改变的多阶段过程,尽早确诊能够有效防止肿瘤进一步恶化,提高患者的生存机率。基因芯片技术能够检测细胞中大量基因的表达水平,对肿瘤基因表达谱数据进行正确分类将有助于肿瘤的早期确诊和治疗。肿瘤基因表达谱数据通常具有高维度、小样本以及类别不平衡的特点,对其进行有效的特征提取并构建考虑类别不平衡的分类模型对提高肿瘤分类准确率十分重要。本文主要从以下两个方面开展研究:(1)针对数据的高维小样本特点,采用不同的流形学习方法提取高维数据的局部和全局特征,获取数据中潜在的低维流形,达到去除冗余和数据降维的目的;并构建高斯过程分类器对得到的低维特征进行分类;实验结果表明,等距特征映射算法和基于监督的局部线性嵌入算法得到的低维流形能够更加完整地保留数据结构特征,结合流形学习的高斯过程分类方法有效地提高了肿瘤基因表达数据的分类准确率。(2)针对数据的类别不平衡特点,通过对似然函数赋予与样本数量相关的权重来平衡各类样本的重要性,以增加少数类样本的分类决策权。实验结果表明,该方法有效保留了数据的原始分布特性,一定程度上解决了由于类别不平衡导致的分类结构倾向多数类的问题,在总体分类性能上优于传统算法,在算法时效性上优于上采样技术等平衡不同类别样本数量的方法。最后,针对SRBCT、ALL-AML-3和Brain肿瘤基因表达谱数据集,通过基于似然函数加权的高斯过程多分类方法实现肿瘤数据分类,采用总体分类准确率和单类最低分类准确率两个指标对该方法进行评价,实验结果表明本文方法相比于其他多分类方法能够得到更好的分类效果,同时有效解决了数据中存在的类别不平衡问题。
其他文献
一种新型的相干光纤通信实验系统最近在桂林三十四所完成。该系统用于传输彩色电视信号,其接收灵敏度达-56dBm,比目前的直接探测光纤彩电传输系统的接收灵敏度提高了近14dBm
从2001年开始,连续两年用激光辐照加电场、磁场激发对滇"三角大香糯"进行了育种研究和各生育期的田间试验观测,并得到了一些有较优变异的稻种.用喇曼光谱分析和量子力学方法
树苜蓿Chamaecytisus palmensis是一种具有饲用、观赏和水保等多功能的长绿豆科灌木树种,2002年首次从澳大利亚引进甘肃,且分别在该省的定西、天水和武都进行了各种育苗试验
《狐狸和乌鸦》一课中,狐狸对乌鸦三次说的话,教师有这样两种教法。一是在学生读了狐狸第一次对乌鸦说的话以后,教师就让学生说说对狐狸的看法,给狐狸扣上“狡猾”的帽子,以下凡是
为明确杨凌区紫花苜蓿叶枯病病原菌种类及其生物学特性,为该病害在生产中的诊断及防治提供理论依据,本研究对采自陕西省杨凌区苜蓿叶枯病病样进行致病菌分离、纯化、分子鉴定
氦氖激光器的输出功率随点燃时间的增加而不断变化。本文介绍的是通过大量的可靠性试验,把许多离散的数据经过微机处理,找到了长寿命激光管输出功率的变化规律。
随着经济飞速发展,“互联网+”时代的到来,传统的物理毁坏已经不能适应新型犯罪,这就使得何为“毁坏行为”成为了司法实践和专家学者争论的焦点。当然,毁坏行为是刑法中的重
本文介绍为实现全光纤功能型传感系统而研制的一种新颖光纤偏频装置。分析了此装置的设计理论和设计方法,在实验基础上给出了实验研究结果,并确定了某些重要设计参数。