基于聚类算法的基因微阵列数据分析

被引量 : 0次 | 上传用户:zjuxy2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。目前,各种不同的数据挖掘方法被应用于微阵列数据的分析研究,以揭示潜在的基因表达模式,对基因和样本进行分类研究和解释。聚类分析能将功能相关的基因按照表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。由于微阵列基因表达数据具有维数高、样本小、非线性的特点,本文从基因和样本两个方面对其进行了分析,包括对基因功能的聚类分析以及肿瘤分型、分类的研究。取得的主要研究成果如下:1.基因表达的改变往往伴随着基因功能的改变,通过聚类分析基因表达谱,可以找到协同表达基因及其规律,同时发现未知功能的基因。本文从基因变化的趋势出发,构造了新的模糊相似关系矩阵,提出了改进的基于模糊相似关系的聚类算法,并以此算法计算模糊C均值(Fuzzy C Means,FCM)的初始聚类中心来对基因表达谱进行聚类分析,实验结果表明该算法不仅克服了FCM算法对初值敏感的缺点,而且能够发现一些表达模式变化趋势相似的共调控基因。2.对样本聚类可以发现未知的疾病亚型。由于在实验过程中,会引入大量的噪声,因此在进行聚类分析前需要先对基因表达谱数据进行降噪处理。本文是在小波去噪的基础上,将改进的FCM算法模型用于白血病基因表达谱样本分型。聚类结果表明:该方法能得到高准确度的样本分型结果。3.由于基因表达数据维数高、样本少,使得聚类效率较低,聚类准确度也相对较小。本文从降维的角度考虑,提出了基于代表熵的双向聚类算法。该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。然后根据代表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。最后采用FCM聚类算法对挑选出的特征基因集进行样本分型。将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。
其他文献
亚砜和砜类化合物具有广谱生物活性,如杀虫、杀菌、除草、抗肿瘤、抗HIV-1和抗结核等。近年来,亚砜和砜类化合物在农药方面得到了广泛应用,如安万特公司开发的亚砜类杀虫剂氟
文章介绍了昆山巴城一个会所的室内设计,探讨如何在室内空间设计中,通过现代设计手法,将室外园林景观引入室内,使景观、建筑和室内空间良好的结合,营造由外到内的具有建筑美
巴赫金的对话理论是Martin和White发展的评价系统中介入子系统的重要理论基础之一。可以从语言哲学观、对话性来源、对话性的体现三个方面来系统归纳巴赫金对话理论的基本内
朱践耳的交响合唱《英雄的诗篇》作为毛泽东诗词歌曲的代表作品之一,产生于特定的历史语境。作曲家根据题材的需要,在毛泽东诗词类歌曲的创作中独具创新,将交响乐与大合唱两
《救荒本草》一书,明太祖第五子朱橚(周定王)于永乐四年(1406年)首刊于当时藩王府所在地—开封。为我国最早的一部图文对照的食用植物学专著,今就其分类方法、记载项目及插图
为了调动学生的学习积极性,提高课堂学习效率。文章结合初中语文"学·导·用"课堂实践,以《土地的誓言》一课教学为例,从目标定位、先学设计、释疑导学、阅读回归等四个方面
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。数据挖掘技术应运而生并得以迅猛发展,
指纹识别技术是通过计算机实现的身份识别手段,也是当今应用最为广泛的生物特征识别技术。指纹识别最早应用在刑侦领域,近几年来已逐渐走向民用市场。同时,民用市场也对指纹
村级财务运转,每天都有成千上万的资金由报账员经手,每一笔资金的流向、单据的报销,都经报账员之手。村级报账员是票据审核的第一道关口,是村级财务监管的“第一线”工作人员。因
电力是一种无形的优质能源商品,我国过去长期形成的同社会生产力发展要求不相适应的高度集中的经济管理体制,决定了电价管理的高度集中性,电价的定价和调价权均由国家集中管