面向基因数据的深度特征选择算法研究

来源 :齐鲁工业大学 | 被引量 : 1次 | 上传用户:pengqiuyu1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是世界上死亡率最高的疾病之一,几乎所有类型的癌症都是造成死亡的重要原因,如何在早期识别出癌症的致病基因是当前重要的任务。随着大数据时代的到来,生物组学数据的泛滥导致基因组数据多而杂,因此对癌症基因组数据进行特征选择尤为重要。但如今传统的特征选择算法处理癌症基因数据将会导致保留特征数量较多和特征分类精度不高问题,深度学习的出现使得面对癌症基因进行特征选择得到进一步发展。深度特征选择算法可以直接描述出特征之间的隐含关系,并且直接生成最优特征子集,提高数据分类精度。本文重点是解决基因数据在分类上精度不高问题,探索有效的深度特征选择算法。具体如下:本文针对癌症基因数据特征选择保留数目多、分类精度不高问题,提出了两阶段深度特征选择算法(TSDFS),该算法在保证选择特征数量较少的情况下,提高分类精度。第一阶段,先集成使用三种传统的特征选择算法对原始高维数据进行特征选择,得到数量较少的特征。三种特征选择算法分别为基于统计学原理的方差检验,基于相关性分析的RRelief F算法和随机森林。第二阶段,将上一步选择出的特征子集放入无监督神经网络变分自编码器(VAE)中对特征进行进一步的提取,进而提高分类精度。本文通过多种实验分析TSDFS有效性,实验结果表明TSDFS在减少特征数目的同时,提高了分类的精度。同时,我们针对胃癌癌症单基因组数据存在信息不足和分类精度不高问题,提出一种基于随机森林的深度特征选择(RDFS)算法,首先对两种基因组数据进行整合分析,获取胃癌不同层面的基因数据形成多组学数据,通过对整合的多组学数据的特征选择来提高胃癌的分类精度。首先整合基因表达(Exp)数据与拷贝数突变(CNV),之后我们采用基于随机森林(RF)算法对整合的基因数据进行特征选择,获得特征子集,最后将特征选择后的特征子集导入神经网络中进行层层处理,进而提高特征分类。通过神经网络分类后,多基因数据分类精度明显提高。本文也通过多方面实验来验证了RDFS算法比其他算法更为优秀。
其他文献
强化交通运输综合行政执法队伍思想政治工作不仅可以进一步提高交通运输综合行政执法队伍各项工作开展的科学性与稳定性,还能全面推进执法队伍建设进程。因此,本文以此为主要内容,探究新时期背景下强化交通运输综合行政执法队伍思想工作的重要性及具体对策,旨在为交通运输综合行政执法队伍的建设提供一定的借鉴和经验。
期刊
近年来,人们对产品的质量要求越来越高,中国制造2025中将可靠性的研究摆在了首要的位置,这也促使着可靠性工程在快速的发展与进步,密封圈作为液压缸乃至整个液压系统正常运行的关键部件,其可靠性则是重中之重。密封圈工作状态的正常与否可直接影响整个工程的稳定性。传统的寿命试验不仅实验时间周期长且实验的费用高,无法满足人们对于快速得到可靠性评估的迫切需求,而基于性能退化过程的可靠性评估方法,不仅实验周期短,
学位
四环素(TC)是一种常见的抗生素中间体,被广泛应用于日常生活中。由于TC具有抗性分子结构,传统的废水处理方法存在处理效率低、成本高、二次污染等缺陷而无法充分降解TC。利用太阳能的光催化氧化技术作为一种高效节能的绿色环境净化技术,在TC降解方面展现出广阔的应用前景。然而目前的单一半导体光催化剂存在可见光响应范围较窄、光生载流子分离效率低等缺陷。因此本文将主要通过寻找能带匹配的半导体材料(硒化铟(In
学位
镁合金具备密度低、比强度比刚度大和储量丰富等众多的优点和特性,使其成为近年来在节能降耗和轻量化材料领域的研究热点。然而,镁合金自身的强硬度低,热稳定性差的缺点也极大限制了其广泛应用。然而镁基复合材料不仅可保留镁合金的优点,而且通过加入其他材料弥补其强硬度低的劣势,成为备受关注的材料之一。现如今,关于金属颗粒增强的镁基复合材料的研究还比较少见。因此,能否在镁合金中通过加入某种金属颗粒,在提高复合材料
学位
随着工业发展对大容量压力容器需求的增加,目前压力容器正朝着大型化、高参数化的方向发展,为了提高压力容器的使用性能和安全性,使压力容器适应更加恶劣的服役环境,国内迫切需要开发综合力学性能更加优异的压力容器钢板。高强韧性压力容器钢板通常需要通过调质工艺来实现最终性能的调控。本文研究了调质工艺对试验钢组织和力学性能的影响,采用热处理炉对试验钢进行了三组热处理试验,结合拉伸和低温冲击等力学性能测试以及金相
学位
国家大力发展核电的政策,已经成为保障国家能源安全,实现碳达峰碳中和目标的重要手段。核电发展的一个重要主题是核电安全问题。核电一回路主管道作为核一级设备的关键部件,关系到核电机组的安全稳定运行,其复杂的服役环境以及长达60年的设计寿命,对主管道材料的成分设计及其组织性能提出了很高要求。本文设计了两种新型的奥氏体不锈钢,并制备实验材料与常用材质316LN对比研究了其主要力学性能和腐蚀性能。通过Ther
学位
随着新一轮科技革命的到来,技术迭代和产业变革正在快速发生,技术间的相互渗透、学科领域的交叉融合使得如何准确识别关键技术领域,尤其是颠覆性技术领域内的核心技术主题,有效提取技术演化轨迹并实现进一步的演化趋势预测成为一项极具挑战且异常重要的任务。通过对颠覆性技术以及技术演化路径识别等相关的重要文献的阅读与梳理,本文首先探讨总结了现有关于颠覆性技术和技术演化轨迹识别研究的局限性,发现存在包括数据源单一、
学位
本文研究在明确网络攻防靶场技术应用现状的基础上,根据网络攻防靶场的关键技术,提出了适用于电网环境的网络攻防靶场实战核心系统,而后明确了未来网络平台研究应用网络攻防靶场平台的发展方向,以期从根本上保障电脑系统运行的信息安全,解决传统互联网系统运行面临的安全问题。
期刊
钢中添加稀土Ce具有多种作用且效果显著,稀土钢逐渐成为研究的热点课题。在含Ce稀土钢冶炼过程中,钢液与耐火材料之间不可避免的发生一系列复杂的元素扩散和化学反应,严重危害耐火材料结构稳定性的同时,也对稀土钢的洁净度产生不利影响。此前大多研究集中在钢中添加Ce的作用,或是单独研究耐火材料与钢液的相互作用,而考虑钢中稀土Ce与耐火材料反应的研究比较少,因此本论文以含Ce稀土钢生产过程中钢包和中间包用镁碳
学位
随着城镇化的不断进行,城市建筑系统不仅积累了大量的资源,而且还产生了大量固体废弃物,造成了土地资源占用、空气质量的恶化等一系列环境问题,是城市系统资源环境问题发生的主要“热点”。为有效地监测和管理建筑系统资源的使用和废弃物的处理、实现城市可持续发展,本研究通过对城市建筑系统物质存量和流量分析,刻画城市建筑系统物质的时空分布格局,揭示建筑系统物质代谢规律,探索城市建筑系统演变路径,识别建筑物质存量变
学位