基于基因表达谱的肿瘤分类方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zhang3862066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,肿瘤疾病已经严重危害到人类的生命健康,与此同时生物信息技术也在快速发展,利用基因表达谱数据在基因水平上研究肿瘤的发生发展机理,有助于肿瘤诊断和个性化治疗。当前,基于基因表达谱的肿瘤分类方法研究多数集中在两个方面:(1)由于基因表达谱数据具有高维小样本的显著特性,而且其中存在大量的冗余基因及噪声,如何从高维数据中提取出致病基因是一个关键任务;(2)目前基因表达谱数据分析的准确度还没有达到应用水平,肿瘤的最终诊断还是依赖于医学专家。因此寻找合适的分类算法并提高其性能是目前研究的重中之重。针对这两个方面,本文展开了如下工作:(1)完成了对超高维基因表达谱数据的特征基因选择工作,一共研究了两类特征选择方法,分别是一般特征选择方法和解决类不平衡的特征选择方法。在一般特征选择方法中实现了3种方法,并进行实验对比发现SVM-RFE能够选择出最优的特征子集。于是本文提出了一种基于上采样的SVM-RFE方法,采用简单的重采样技术来解决类不平衡问题,并与另一种解决类不平衡的FAST方法进行实验比较,本文方法克服了FAST中不稳定的缺点,而且得到了更好的总体分类正确率和小类别样本的识别率。(2)研究并实现了5种常用分类方法,对5种分类方法进行对比分析,实验发现在4个基因表达谱数据集上支持向量机都得到了最好的分类结果。(3)利用Bagging和Boosting方法对SVM进行集成学习,由于SVM是一种相对稳定的分类器,集成结果不理想。通过结合参数扰动增大成员分类器之间的差异性,能够提高SVM的总体分类正确率以及小类别样本的识别率。(4)研究了具有代价敏感性质的肿瘤分类问题,总结归纳了解决代价敏感问题的多种策略,并实现了两种不改变原有分类算法的代价敏感学习算法:MetaCost和AdaCost,一般MetaCost和AdaCost都是采用C4.5作为基分类器,通过实验对比发现AdaCost在高代价样本错误率上得到了较好的结果。由于SVM分类器在基因表达谱数据上取得了很高的分类精度,我们考虑将SVM分类器应用到MetaCost和AdaCost中,新的MetaCost和AdaCost能够大大降低高代价样本错误率和错误总代价。
其他文献
新形势下,高校治理体系和治理能力现代化的实现必须首先树立现代化的高校治理理念,其次要进一步理清政府和高校的关系,明确权责,再次要平衡高校中学术权力和行政权力的关系,
本文通过对路桥施工技术与质量控制相关内容作了简单的阐述,进而提出了路桥施工技术和质量控制的相关举措。比如应当做好施工技术管理方面的工作;构建较为完整的项目保障系统
环境科学与工程虚拟仿真实验教学中心建设内容包括:分析仪器类仿真实验教学资源、环境工程类仿真实验教学资源、虚拟现实类环境工程仿真实验教学资源、基于互联网的在线虚拟
该文通过访谈法、实地调查法、数理统计法为主要研究方法,对玉溪市羽毛球爱好者运动损伤类型进行剖析,并提出对策及建议。研究旨在竞技体育逐步被完善发展的同时,羽毛球项目
历来在有关纪录片的论说中,真实都是一个重要的命题。纪录片不仅要求事实真实──真实时间、真实环境里发生的真人真事,还要有表现的真实──纪录片呈现事实的方式符合观众特定
从2004年1月1日起我国对燃料油实行进口自动许可管理,国内燃料油市场已与国际市场完全接轨,从事燃料油进口的公司达111家。燃料油进口贸易蕴含巨大的商机。文中披露了燃料油
白洋淀湿地是华北平原仅存的为数极少的湖泊型湿地之一,具有改善生态环境、保护生物多样性等功能。通过遥感手段进行白洋淀地区湿地变化研究,可为景观格局变化、生态环境分析
城市经营性租赁房屋的补偿一直是房屋征收中法律关系最复杂、利益纠葛最多、也最容易引发纠纷乃至恶性群体性事件的问题,其中的核心是如何补偿承租人。对此,1991年和2001年两
<正>国家能源局发布了《煤炭清洁高效利用行动计划(2015-2020年)》(以下简称《行动计划》)。《行动计划》提出,通过加快发展高效燃煤发电项目和对现有机组进行升级改造、实施
每次中国共产党的全国代表大会的召开,总是同一定的地点联系在一起。岁月无声。尽管历史尘封了记忆,但当我们蓦然回首时,那曾经群英汇聚、承载荣光的一个个圣地,却再次把我们