基因表达数据特征选择及特征子集冗余研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:y412327391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因是具有遗传效应的DNA片段,基因支持着生命的基本构造和性能。研究发现,很多疾病的产生是由于基因的突变造成的。因此,基于基因表达数据的疾病诊断研究成为生物医学上的一个重要课题。基因表达数据具有高纬度、小样本的特点,在数据预处理过程中需要进行特征选择。特征选择不仅能够有效的降低数据维度,减少后续的工作量,更能够帮助我们识别重要的特征,减少噪声对数据集的影响。因此,本文针对基因表达数据,在特征选择及特征子集冗余方面做了进一步的研究工作,主要工作内容如下:(1)单一的特征选择方法往往具有自身的局限性,对于同一种疾病分类模型,这种局限性会导致不同的分类效果。为突破这种限制,本文采用集成学习的方法,使用多种单一的特征选择方法对同一数据集进行学习,并将多种结果聚合在一起。在多个二分类及多分类公共肿瘤基因表达数据集上进行数据分析,结果表明,集成特征选择方法选择的特征子集具有更好的分类预测性能。(2)针对特征子集冗余问题,提出一种启发式特征子集冗余去除算法。启发式特征子集冗余去除的主要思想,是保留最重要的一部分特征基因,并去除特征子集中与其具有较强相关关系的特征基因。此方法不改变特征的原有属性,可以看做是特征的二次选择。实验结果表明,相对于原始特征子集,冗余去除后的特征集合往往能够达到更高的分类准确度,但分类效果受到冗余去除阈值的影响。(3)在特征子集冗余去除问题上,本文提出了另一种基于主成分分析的特征子集冗余去除算法。此方法使用主成分分析方法消除特征之间的相关性,在原始特征子集上构建新的特征集合。这是一种特征提取方法,改变了原始的特征空间。实验结果表明,对于大多数数据集,新构建的特征集合能够获得比原始特征子集更高的分类准确度。相对于传统的特征选择方法,本文提出的集成特征选择方法及特征子集冗余去除方法,均表现出更好的分类性能。但是,特征选择及冗余去除都是一个降维过程,这一过程会造成原始信息的损失,对于特定数据集,如何确定特征子集的数量,尽量减少信息的损失,是本文需要进一步研究的问题。
其他文献
藏医针刺疗法是藏医六大外治法之一,其内容以针刺适应、禁忌症、器械形状、穴位、分类、姿势、进针法、手法限度、死亡征兆、针刺反应、功效等构成。在一千多年的临床治疗中发挥着重要的作用,然而藏医针刺法在漫长的历史长河中逐渐消失或失传。时至今日,除了一些零碎的眼疾拨障术之外,藏区几乎没有针法的传承足迹,本文通过总结和对比藏医与中医针刺背俞穴的数量、定位及刺法之间的异同,从文献查阅中分析藏医针刺学的起源与发展
家庭小说主要指以家庭生活为中心,描写爱情婚姻、家庭琐事、人际关系,以至拓展到社会世态及各阶层众生相为题材来反映现实生活的小说作品。小说的主题则一般被理解为小说的题材或中心思想,在小说的创作过程中,如审美意象的选择、叙事过程的设计或者叙述话语的风格都是围绕着作品主题确定的。本文以家庭小说叙事主题为中心,以同处于东亚儒家文化圈的明清时期的中国、朝鲜朝的作品为例,通过主题学、社会历史批评、文化学批评、女
坚硬石英砂岩顶板与瓦斯在我国煤矿中普遍存在,对于坚硬石英砂岩失稳垮冒摩擦效应及其引发采空区瓦斯爆炸燃烧的机理尚未完全明确,往往在发生相关事故后才意识到此类事故隐患的存在,因而易成为瓦斯防治工作的死角。因此研究坚硬石英砂岩失稳摩擦效应及其引发瓦斯爆燃的影响因素,明确事故发生机理,对于煤矿的安全生产,保证人身财产安全具有重要意义。本文对上覆岩层稳定性进行了力学分析,考虑到断裂角的影响,推导出包含断裂角
断层是矿井中常见的地质构造,断层的存在破坏了上覆岩层的整体性,打乱了岩层连续整体赋存的格局,影响原岩应力的分布状态。回采过程中断层稳定状态被打破,极易发生活化,进而诱发不同程度的煤岩动力灾害。本文通过理论分析、相似材料模拟试验等方法研究了断层影响下覆岩破断特征及位移规律,研究了断层影响下横向离层裂隙、纵向破断裂隙及覆岩运移形态的演化规律,基于砌体梁理论,结合断层活化宏观力学分析,对断层活化顺序、断
稀疏矩阵向量乘法(SpMV)是求解稀疏线性方程组的计算核心,被广泛应用到经济学模型、信号处理等科学计算和实际应用中。在工程应用中,重复调用稀疏矩阵向量乘内核的次数常常会达到成千上万次。但是SpMV的浮点计算操作和存储访问操作比率却非常低,且存储访问复杂。因此,提升SpMV的计算性能成为提高工程效率的关键。目前对于提高SpMV计算性能方法的研究有稀疏矩阵数据压缩算法、稀疏矩阵数据存储格式预测算法、异
基于鱼类逆流游泳的特性,在本研究中,通过考察不同训练强度及训练时间下的训练方法对紫红笛鲷(Lutjanus Argentimaculatus)的生理影响,探究了紫红笛鲷免疫力水平及抗氧化水平对训练强度及时间的响应情况;通过考察训练有无结合添加剂N-乙酰半胱氨酸(NAC)不同含量下与N-氨甲酰谷氨酸(NCG)联用的结合方式,得到了一些营养强化作为驯化辅助手段的初步经验。(1)逆流运动训练及运动时间对
在中国共产党成立以来一百年的历程中,在马克思主义的正确引领下,中国共产党对中华优秀传统文化进行了持续性的传承、改造和转化,促进了中华优秀传统文化不断向前发展。在建
由于我国煤炭开采技术的飞速进步,矿井开采规模日益增大,导致了煤层开采深度越来越深。我国的地质条件十分复杂,这就使得巷道的支护问题越来越严重,此类问题在深部巷道中尤为突出。受高地应力的影响,仅仅通过加强支护强度的支护手段是不能有效的控制巷道围岩的变形。钻孔卸压技术可以有效减少巷道周围岩体弹性能的积聚,控制巷道围岩变形。本论文以8204工作面下顺槽为研究原型,通过对巷道的地质条件、围岩破坏特征以及观测
近些年来,随着经济改革不断地深化,我国农业产业化的快速推动、城镇化进程的日益加快,人多地少的土地供需矛盾进一步被放大。再加上我国长期存在的城乡二元体制的历史原因,传统乡村集聚的生产与生活方式迎来了巨大挑战。农业、农村、与农民这“三农”问题始终是国家高度关注的重要事项。聚焦到地方政府,如何提升农民的生产与生活水平更是一项被广泛提及的重要课题,被社会各界广泛关注与研究。宿城区农民集中居住工作始终坚持规
随着网络的发展,边缘侧的请求数量日益增长,对传统集中式网络系统造成了极大的服务压力,已经逐渐无法适应新的需求。边缘计算通过将请求的处理过程放到离用户最近的地方进行,并利用自组织网络延伸并提升边缘侧的网络覆盖与服务能力。但该网络中节点存在不良行为,网络不可信,而且服务组合过程存在忽视网络层细节的问题,造成效率低下。为此,本文将针对边缘延伸网络的网络路由可信问题和服务高效组合问题,展开路由可信和服务组