基于小波和CART算法的微阵列数据分类

来源 :山东轻工业学院 齐鲁工业大学 | 被引量 : 0次 | 上传用户:szoysj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了基于CART(Classification and Regression Tree)算法的基因芯片数据的分类问题。基因芯片技术对于早期癌症的诊断和确诊是一个革命性工具,它从基因表达的角度判断发病情况。而获得的高维数据和少量样本问题对于分类识别方法提出了很大的挑战。模式识别问题中,对于高维数据来说一般需要进行特征选择或者特征提取来降低维数,目的是提高分类的效率和分类的识别率。特征选取的方法很多,本文采取了小波特征提取细节系数,为了找到基因信息,我们把合适层数的细节系数重构回了原始样本空间,后使用Wilcoxon秩和检测选择一小部分基因表达差异最大的基因。做完特征选取之后,本文以CART决策树算法作为分类器,采用10-fold交叉验证方法来划分训练样本和测试样本,以基尼指数(Gini’s diversity index)作为误差函数,训练样本构建分类器,测试样本用于分类。最后,以最小代价复杂性进行剪枝找到最优规模的分类树。实验使用了三组数据集,结果显示:肺癌微阵列数据、前列腺癌微阵列数据和白血病微阵列数据使用此方法,分类识别率最高分别达到99.45%、92.65%和98.61%,且10次10-fold交叉验证很稳定;此方法还可以得到人们容易理解的分类规则和分类关键基因。实验表明,这个方法可以得到区分类别的特征基因,这些基因对癌症的早期诊断将提供重要的参考价值。
其他文献
运动捕捉(Motion Capture)是计算机视觉领域的基础研究课题之一,旨在基于多个不同视角的同步相机阵列恢复人体运动过程中的三维模型和细节特征,在虚拟现实(Virtual Reality)
因特网的发展使得人们可访问的信息资源越来越多,远远超过了人工筛选的处理能力,人们迫切的需要一种能够快速准确地为其找到所需信息的手段。信息检索这个研究领域正是应此需
反病毒厂商每天都要收到数以万计的可疑程序样本,工程师需要从海量可疑文件中找出真正的恶意程序,以提取病毒特征码,从而更新病毒特征数据库。本题的目标是开发出一套基于程
随着实时计算在众多领域中的渗透,嵌入式实时操作系统的使用越来越广泛,其安全性与可用性也越来越受关注,特别是在对安全性与可用性有着高要求的航空航天领域。传统的嵌入式
近几年来,关于微电网技术方面的研究是国内外电力系统研究的热点和重点,而控制问题是微电网在实际运行中需要解决的关键问题之一。本论文的研究主要是围绕着微电网的控制问题而展开的。本文论述了国内外微电网的发展情况,微电网概念和结构,以及微电网的一些关键技术。多智能体技术具有自治性、社会性、反应性、协调性,并且具有很强的推理能力,以及自组织能力和学习能力,可以很好的解决微电网控制中的问题,所以本文提出了基于
在网络图像资源呈爆炸式增长的今天,如何有效地管理这些资源并让用户可以方便地访问其所需要的图像成为众多研究的焦点。基本方法主要包括图像检索和图像浏览,而图像标注则是
随着计算机技术和移动通讯技术的迅猛发展,建立在移动通信技术基础上的一种新的计算模式—移动计算(mobile computing)模式获得了飞速发展。目前以广播模式发布数据来支持并
图作为反映数据中携带信息最重要的一种表达方式,在许多领域得到广泛的应用。而热图是超越传统图形意义的一种新型的信息可视化方式,在现代的可视化领域中,热图的使用更加广
随着Internet技术的发展,网络应用服务越来越丰富多彩。为了对互联网中各种各样的流量实施有效的监控,首先需要使用协议识别技术来分辨网络流量的不同应用类型,然后才能够有
在研究Web服务组合中存在着一个重要问题是怎么样使用进程代数形式化的描述Web服务组合并且证明Web服务组合的正确性。用Pi-演算建模Web服务组合的模型可以用来检查、验证Web