特征选择在基因表达数据分析中的应用

被引量 : 0次 | 上传用户:qwedddessf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是模式识别领域,尤其是生物信息学领域的研究热点之一.基因芯片技术的飞速发展使人们在一次实验中可以同时检测出成千上万个基因的表达值,从而获得大量的基因表达数据.然而,基因数据具有维数高、样本个数少的特点,这使得基因表达数据的特征选择具有一定的研究意义.如何在海量的基因表达数据中选择那些与疾病相关的基因,成为了一个具有挑战性的课题.本文提出了改进的二叉决策树分类算法和基于二叉决策树的基因选择算法.具体来说,它包括以下两个方面:1.改进的二叉决策树分类算法.我们综合了决策树的ID3 (Iterative Di-chotomiser)、C4.5和CART (Classification and Regression Trees)算法,提出了改进的二叉决策树分类算法(Classification Algorithm based on Binary Decision Tree, CABDT).为了降低数据的噪声对分类实验结果的影响,我们引入了经验风险的概念对决策树进行剪枝,提出了后剪枝二叉决策树分类算法(Postpruned Classification Algorithm based onBinary Decision Tree, P-CABDT).2.特征选择在基因表达数据分析中的应用.基因数据具有维数高、样本个数少的特点,特征选择(即基因选择)在这里显得尤为重要.针对基因数据,本文提出了一种基于二叉决策树的基因选择算法(Gene Selection Algorithm based on Binary Decision Tree,GSABDT).该方法属于嵌入法,自动地选出了数目很少并且与疾病发生有关的基因,从而降低了分类问题求解的规模.
其他文献
<正>2014年4月14日,美国普利策奖揭晓,唐娜·塔特凭借新作《金翅雀》在众望所归中一举登顶。唐娜在创作上是出了名的慢性子。从1992年她二十八岁时发表第一部小说起,迄今只写
<正>引言:进入21世纪以来,随着网络通讯和多媒体技术的迅速发展,网上企业、虚拟企业等新的企业系统应运而生,网络经济逐渐形成。网络经济改变了人们的传统的资
改革开放30多年来,内蒙古经济发展呈现良好态势,内蒙古经济增长速度连续多年在全国各省市自治区位列第一。与内蒙古经济发展不相协调的是内蒙古农民纯收入的增长速度却远远低
随着我国西部地区高速公路建设的迅猛发展,将会遇到大量的高边坡。这些高边坡的稳定性受坡体材料强度、区域地质条件、地震力等多种因素的影响。传统的分析方法将这些影响因
本文分析了大学英语多媒体教学与学生学习策略之间的关系,提出了多媒体英语教学模式的特点与学生在这种模式下的学习策略现状。在此基础上,本文进一步探讨了学生在多媒体教学
酸枣仁(Semen Ziziphi Spinosae)为鼠李科植物酸枣(Ziziphus jujuba Mill.var.spinosa Hu ex H.F.Chou)的干燥成熟种子,味甘、酸,性平,具有养肝、宁心、安神、敛汗等功能,属
生态服务价值是定量研究土地利用生态效应的重要指标之一。唐山市作为全国重要的重工业城市,改革开放以来,经济发展迅速,人口大量增加,土地利用变化剧烈。在唐山市十二五规划
<正>鼓浪屿的魅力不仅仅是那些精美绝伦的老别墅、迷人的自然风光,而是在于其原有的独特的历史人文。老别墅不过是这些历史人文的载体。因此,我们课题组就从历史的角度,充分
随着城市建设的不断发展和人口的日益增多,人们对住房的需求和要求都开始逐渐增加。但随着房地产产业出现过热的趋势,国家开始加大对房地产调控的力度,人们也不断提出要求改