互信息去冗余与多种分类模型结合的癌症分类问题研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:cao5556759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着癌症发病率的提高以及癌症的高死亡率,越来越多的研究者开始将关注点放在癌症分类问题上。传统的癌症分类问题主要是基于形态学之上,主要依赖于经验,诊断准确性不高。基因芯片技术的出现使得大量的基因表达数据被测定,这使得从基因的层面对癌症进行早期的诊断成为了可能。然而基因表达数据具有样本少、维度高、数据分布不平衡等特点,如何对这些数据进行有效的预处理、通过特征选择达到降维的目的、建立分类精度高的癌症分类模型引起了广大学者的关注。在癌症分类问题中,本文首次提出互信息去冗与多种分类模型结合的分类方法。首先利用欠采样的方法对数据进行预处理,从而防止样本不平衡所带来的数据碎片问题和不恰当的归纳偏置问题;然后通过信息增益的方法进行特征基因的选择,从而降低数据维度,去除无关的特征所带来的干扰和对性能的影响;进而使用互信息的方法进行冗余基因的去除;最后使用最终的特征基因集合用于癌症分类模型的构建。本文将互信息去冗与多种分类模型结合的分类方法应用在基因表达谱类型数据的分类问题中,通过实验和对比研究探索数据预处理、特征基因的选择、冗余基因的去除、分类模型的构建。对KentRidge数据集和TCGA乳腺癌数据集进行预测研究,实验结果为,本文所提出的分类方法优于使用信息增益进行特征选择的方法,在分类准确度上、使用SVM作为分类器时采用互信息去冗的方式进行特征基因的选择较信息增益的特征选择方式在五个数据集中均选择了较信息增益较少的基因作为特征基因,其中在BreastCancer数据集上,去除的冗余基因较多,剔除了 17个基因;在分类精度上,采用互信息去冗的特征基因选择较采用信息增益的特征选择方法有了一定的提升,其中在Colon Cancer数据集上,分类准确度提高了 6.7%,Breast Cancer数据集上,分类性能降低了 0.9%,其余数据集上分类准确度具有一定的提升;在分类模型的构建方面,本文研究发现,不同的分类器在不同的数据集上使用本文的特征选择方法后表现的分类性能有优劣之分,其中KNN在2个数据集中表现出更优的分类性能,而SVM则在3个数据集中表现出更优的分类性能。实验结果表明,不同特征选择算法与不同分类模型相结合具有不同的性能;在特征选择方面,采用互信息去冗余的特征选择方法,解决了以往的特征选择方法中,特征集合中存在冗余的问题。
其他文献
在文献检索及专家咨询的基础上确定护生实践能力的内涵和评价内容,把各种能力作为评价指标,构建基本技能评价指标体系、综合能力评价指标体系和实习质量评价指标体系。
链条锅炉煤种适应性差,不适于单烧无烟煤及结焦性强和低发热量的劣质煤;燃烧不完全使锅炉出力不足;对负荷适应力差,运行不稳时,炉渣含碳量高。针对以上问题,本文主要介绍通过
【正】 一、心理学达到家喻户晓在美国,几乎人人知道心理学,几乎每所大学都有心理学系。有一次收到我所住地区一街道大学的招生广告,在屈指可数的几门课程中竟包括着心理学。
<正>笔者研读了《中国学校体育》2011年第3期赵流天和徐献银老师的"一年级新生广播体操的教学策略"(以下简称"原文")一文,引发了一些思考,现结合文中的部分观点,阐述一下自己
改革开放以来,我国经历了从粗放经营为主逐步转变到集约经营的轨道,经历了传统计划经济体制向社会主义市场经济体制转变,经历了转变经济增长方式,改变高投入、低产出,高消耗、低效
近几年,随着雾霾、水污染等一系列环境问题的出现,环保理念日渐进入公众的视线内,上市公司和社会各界对环境信息的披露也日益重视,但是环境信息的披露对于企业价值的影响是好是坏没有定论,另外政府对于企业环保行为方面的监督作为重要的公司外部治理机制之一也日益受到重视。然而,迄今为止关于政府监督、环境信息披露、企业价值的研究大都是两两之间的相关性检验,缺乏对内在作用机理的深入分析,所以研究政府监督——环境信息
1921年建立的中国共产党,在多次失败之后,走“农村包围城市”的道路,在中国的最底层建立党组织,发动群众、团结群众,领导中国人民推翻了三座大山,建立了新中国。因此新中国
职业生涯规划是大学生就业最先行、最基础的一项准备工作,也是大学生实现职业理想和职业目标的关键一环。本文在分析当前我国大学生职业生涯规划存在问题的基础上,提出解决这
嫩芽分割是实现茶叶智能采摘的重要前提,自然环境下老叶、茶梗和土壤等加大了嫩芽分割难度。针对低对比度茶叶嫩芽图像,首先统计RGB模型下各目标颜色信息分布,其次利用灰度拉
统计机器学习的应用广泛,如人脸识别,自然语言处理等,本文研究的对抗算法则是从安全性出发,旨在确保应用免于受到外来攻击,增强鲁棒性,而支持向量机是目前理论最完备、应用最广的一类机器学习算法,本文将其作为研究对象。本文工作如下:(1)针对具体应用——入侵检测系统,本文提出一种基于SVM入侵检测系统的新颖攻击方法——毒性攻击,该方法通过篡改污染训练数据,进而误导SVM的机器学习过程,降低入侵检测系统的分