基因表达谱数据挖掘的特征提取方法研究

被引量 : 0次 | 上传用户:bbcat1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新分子生物学技术和DNA微阵列技术的迅速发展,在生物样本中可以同时定量测量数以万计的基因表达水平,使用这一技术产生的基因表达谱数据能够揭开隐含的、以前未知的生物学知识。近几年来,研究学者利用统计学和模式识别等知识对微阵列基因表达谱数据进行分析,对致病的肿瘤基因进行有效的挖掘,从而对肿瘤的类型作出准确的诊断和分类预测。然而针对高维小样本特点的肿瘤基因表达谱数据来说,传统的数据处理方法在对肿瘤数据进行分析之前,普遍都是将高维度的肿瘤数据转换为低维度之后再进行处理,在保证分类识别精度的同时提高学习方法的性能和计算效率。本文通过结合生物信息学和模式识别中的相关知识,对高维小样本特点的肿瘤数据进行特征基因的提取,并对相应的实验结果进行了有效性分析,其主要研究内容如下:1.提出一种基于子模态性质的特征基因选择算法。首先,考虑到肿瘤基因表达谱数据基因之间相关性的特点,将独立的基因属性转变为具有结构信息的邻接图;其次,对表征基因关系的邻接矩阵构建子模性质的特征选择目标函数,然后使用贪心算法求解,获得相应的特征基因子集;最后,将训练样本选取的特征子集运用到测试样本分类中,使用KNN和SVM分类器进行分类识别,通过对实验结果的分析说明了该方法的有效性。2.针对高维小样本特点的肿瘤基因表达谱数据,将局部保持投影降维方法应用于肿瘤基因表达谱特征基因提取中。该方法首先使用主成分分析口CA)对高维的原始数据进行降维和去噪,将处理后的数据通过保留99%的主成分作为对原始数据的表征;然后利用LPP能够保持局部特征的优点作降维约减,在肿瘤数据上对特征基因进行信息提取;最后分别使用KNN分类器和SVM分类器对肿瘤数据进行有效分类,通过对三组公开的真实数据集进行实验与结果分析,验证了该方法的可行性和有效性。
其他文献
进入20世纪80年代,旅游者对旅游的要求逐渐发生变化,开始崇尚旅游中的文化体验,传统的观光旅游形式渐渐不能满足旅游者对文化的向往。旅游者越来越重视和追求旅游的文化内涵
高血糖是指血液中的葡萄糖超出正常范围,临床上主要表现为糖尿病和应激性高血糖,是犬最常见的内分泌紊乱的病症之一。糖尿病是由于体内胰岛素的绝对性或相对性缺乏而引起的蛋
随着城市建设的发展和地下空间的开发,大型水下盾构隧道正朝着超长、大断面、高水压和地质条件复杂的方向发展,这对盾构隧道的抗震研究提出了更高的要求和挑战。然而,过去人
鼓藻类隶属于绿藻门,是绿藻门中一个种类非常丰富的类群。鼓藻类对水环境,尤其是水体理化指标的变化很敏感,是水体水质状况的重要指示生物,在水生生态系统和水环境监测中具有
幸福是人类追求的永恒话题。幸福是个体的需要、欲望和目的得以满足之后所形成的持久快乐的心理体验。幸福的感知同个体的价值观念、文化素养、审美意趣乃至身心状况都有着密
本论文分为文献综述和临床研究两个部分。文献综述综述一:在中医方面主要阐述了古代中医文献关于烟草成瘾的病名、病因病机的认识,以及辨证分型和临床治疗部分。西医方面,探讨
土壤盐碱化严重降低作物生产力,是当今世界农业面对的一个巨大难题。研究表明,提高作物的耐盐能力是解决这一矛盾的最高效方式。油菜是世界上最重要的油料作物之一,是我国第
建筑的结构就是指:在建筑物内部,有建筑材料制成的用来承受各种荷载或者作用,起到骨架作用的空间受力体系。建筑结构设计由于所用的建材各不相同,可以分为:组合结构设计、混
西班牙画家安东尼奥·洛佩兹·加西亚作为西方当代具象写实绘画的代表之一,以其充分的传统绘画语言和强烈的时代特征展现了本人独特的艺术形式。文章通过对空间在绘画范畴的
随着我国的经济发展,英语作为全世界的通用语言,对于我们农村中学的学生来说,要想掌握先进的科学技术,改变家乡落后的面貌,走向世界,学好英语显得尤为必要和迫切。但我们农村