基因表达谱数据的特征选择与分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lzx6963817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术能够快速的测量成千上万条基因的表达。随着微阵列技术广泛应用到肿瘤研究中,产生了大量高维小样本的基因表达谱数据。利用基因表达谱数据进行生物信息挖掘是生物信息领域的研究重点。如何从海量的基因表达谱数据中挑选冗余度小,分类能力好的特征基因,挖掘出有用的信息、更加清楚的认识肿瘤在基因层面的意义,对肿瘤的致病机理分析、临床诊断与治疗起到至关重要的作用。因此,寻找合适的数据处理方法来对基因表达谱进行数据挖掘成为一个亟待解决的难题。本文的研究工作主要包括两个方面:在特征选择方面,针对基因表达谱数据的高维、高噪声、高冗余的特点,从特征本身出发,提出了一种基于稀疏表示和最大相关最小冗余的基因选择方法。该算法分为两个层面:首先,利用稀疏表示系数来计算基因对于类别的重要程度,提取排名靠前的基因,删除不相关基因,降低数据维度;然后,稀疏表示系数用来计算在其余特征的影响之下,基因与基因之间的相关性。最后,使用改进的最大相关最小冗余的搜索策略对特征基因进行挑选,剔除冗余基因,获得最终的特征基因子集。这种方法不同于以往的将特征基因孤立看待的特征选择方法,充分考虑了在其他基因的影响之下,复杂的生物关系之中各特征之间的相互关系,能够有效的挑选特征基因,提高分类精度。在分类器方面,提出了一种基于加权元样本的核稀疏表示分类方法。在近几年,稀疏表示被证明具有良好的分类能力。针对稀疏表示分类方法不能很好的处理同方向分布的数据以及元样本提取过程中人为参数的设置影响实验结果这两个问题,本文提出一种基于加权元样本的核稀疏表示方法。首先,使用SVD分解每一个类的原始样本矩阵,通过矩阵变换的方式构造加权元样本矩阵,获得稀疏表示分类的字典。其次,用核稀疏表示的方法将其映射到多维空间,使得新的样本特征能够线性可分;最后,通过计算得到稀疏表示系数,使用残差比较来对样本进行分类。通过实验对比,与三种不同的分类方法相比较,证明了该方法的有效性。
其他文献
城市化和全球化的脚步越来越快,我们也越来越离不开城市。城市设计的目的是为人类创造更有意义的人为环境和自然环境,得以改善人的空间环境质量,为落脚城市的人们寻找“归宿
近年来,随着风力发电渗透率的逐渐提高,风电并网带来的无功电压问题严重影响了电网的安全稳定运行,逐渐引起了研究人员对风力发电机自身无功调节能力的关注。传统处理风电并网带来的无功电压问题时,过度依赖无功补偿装置。目前我国风电基地多集中在我国相对发展不发达的西北部地区,过度的依赖动态无功补偿装置解决无功电压问题,加大了风电场的建设成本。本文考虑综合利用双馈风力发电机(Doubly Fed Inducti
一直以来我国对人工繁育野生动物持鼓励和扶植的态度,但是随着其产业的发展壮大逐渐衍生了不同产业方向,人工繁育活动逐渐趋向于商业化,市场需求和经济收益均呈现出扩大化,受经济利益吸引,非法人工繁育野生动物并对其进行商业化利用的行为增加,导致社会状况与立法现状、司法实践产生了较为激烈的冲突。其中,司法实践与现实冲突最典型的案件为“深圳鹦鹉案”,该案引发了社会各界对于野生动物犯罪案件的争议,对于如何对人工繁
从20世纪90年代起,伴随着计算机技术的快速进步,个人数据频频成为被侵害的对象,在互联网领域更是如此,严重影响了数据权利人的合法权益。面对这一棘手问题,世界各国和各地区尝试从不同角度对个人数据进行保护,掀起了个人数据保护的立法热潮。我国身处数字技术变革的中心,也参与其中。但在各种因素的影响下,对个人数据的保护并不到位,尤其对于消费者个人数据这一更具体的问题上,立法中存在一些不足。随着互联网消费的蓬
在风洞中开展的捕获轨迹试验(简称CTS—Captive Trajectory System),用于模拟外挂物从母机上分离的位移、速度、加速度等轨迹特性,分析评估外挂物分离对母机飞行的安全性影响
无人水下航行器(UUV)广泛用于商业,科学和军事任务,用于各种目的。使这项技术具有挑战性的是增加任务持续时间和未知环境。有必要将容错控制范式嵌入到UUV中,以提高载具的可
目的:研究中成药心宝丸对慢性心力衰竭(CHF)的有效成分、药物作用靶点、机制和对大鼠H9c2心肌细胞损伤的药效。方法:网络药理研究,建立心宝丸与CHF的“成分-靶点-通路-疾病”网络药理模型。通过 Drugbank Database、Therapeutic Target Database(TTD)和 Research Collaboratory for Structural Bioinformat
低聚果糖(Fruto-oligosaccharide,FOS)可促进肠道有益菌增殖,具有调节并提高免疫力、促进矿物质吸收等独特的生理功能以及优良的物化性质和良好的食品加工特性,以蔗糖为原料,利
现代互联网软件的复杂程度早已超出人们的想象,特别是企业级软件,由于用户对于软件的稳定性和效率的要求,以及软件强大的功能,都直接导致了企业级软件的开发测试工作的复杂性。基于互联网的企业级软件开发所要求产品快速迭代,并要保持产品的质量,需要用到持续集成(Continuous Integration),简称CI。持续集成是一种敏捷开发模式,意指对软件项目进行持续的自动化构建,通过实时和定时的对代码进行编
我国经济在改革开放以来取得飞速发展,居民个人收入水平增长迅速,个人所得税的税源也在逐年增长。但由于我国尚未建立出完整的自然人个人所得税征管体系,对自然人的征管也没有与信息化技术紧密结合,导致个人所得税信息化征管水平不高,个人所得税税款流失情况严重,以至于个人所得税作为一个直接税税种,保障社会公平正义、调节贫富差距的职能无法得到有效发挥。2018年我国对《中华人民共和国个人所得税法》进行了第七次修正