基于高斯混合模型的基因表达组织特异性研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:abcdefghijklmn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组织特异性基因(TS基因)被认为是在不同的组织内表达水平差异较大、从事细胞特异性活动或者进化过程中变化较快的基因。为了分析基因表达组织特异性的因素,研究人员对基因序列模式、结构特征、调控因子特性等方面进行了相关研究。我们认为基因的表达模式是基因表达组织特异性的又一因素。研究基因的表达模式对理解生物体的内在活动机制、有针对性的疾病诊断和药物设计具有重要的作用。为此,本文提出基于高斯混合模型的方法研究基因表达的组织特异性。该研究方法主要包括三方面内容:基因表达组织特异性模式的发现、基因表达组织特异性模式的分析和组织特异性基因的预测。   在基因表达组织特异性模式发现过程中,我们将基于高斯混合模型的聚类算法作为研究方法,发现模式特征。选用这种算法是因为该算法是基于概率的聚类,更适合于异质数据的集成。同时,混合模型的分量描述,更适合于寻找聚类簇与各组织之间的隐含关系。   基因表达组织特异性模式分析过程,主要利用基于高斯混合模型的聚类算法聚类,分析实验数据,获取基因表达组织特异性模式的模式特征。该过程使用Affymetrix公司提供的U133A芯片基因跨组织表达数据作为实验数据,使用EST、TIGER、CFATS数据作为是实验结果的比对数据来分析聚类结果,评价基因表达组织特异性模式的性能,最终提取出基因表达组织特异性模式的参数特征。实验结果发现了对胎盘、胰腺/结肠和肾/肝等组织特异性表达的基因表达模式。   组织特异性基因预测过程,主要利用模式分析过程提取的模式特征建立预测模型,预测潜在TS基因。该过程使用Affymetrix公司提供的GNF1H芯片和U133A+GNF1H芯片集基因跨组织表达数据作为实验数据,使用EST、TIGER作为实验结果的比对数据,评价基因预测的性能。结果表明预测模型对胎盘、胰腺/结肠和肾/肝组织潜在TS基因的预测性能较优,而对其他组织潜在TS基因的预测性能有待提高。
其他文献
移动ad hoc网络由于其自身的特点,使其相对于传统的有线网络而言,更易遭受攻击,因此对ad hoc网络的安全的研究成为一个热门的研究课题。   入侵检测作为保护系统和网络安全的
随着经济的快速发展,企业对控制系统的要求也越来越高。但是,自封闭式的传统控制系统难以实现设备、系统、外界之间的信息交换,存在严重的“信息孤岛”现象,难以满足企业对企业信
学位
三维线条的绘制在图形学与可视化领域中有着广泛的应用,如三维模型的线绘制,弥散张量成像纤维(DTI Fibers)的绘制,以及流体可视化中流线(Streamlines)的绘制等。与其他的表现
随着经济贸易的增长,物流效率的提高成为物流产业发展的一个主题。集装箱作为物流活动中最为重要的工具之一,其优化问题的研究直接影响着企业物流费用的支出。集装箱装载问题是
自20世纪90年代以来,信息检索正在向着领域化、智能化方向发展,而提高检索的质量,推出令人满意的检索技术成为了全世界范围的研究前沿和热点。本体作为表达知识的共享概念模
目前,网络拥塞算法主要在源端、网络端和基于控制论这三个领域。本文是基于控制论这个领域进行研究。论文在介绍网络拥塞的概念、原因和研究状况的基础上,分析常见的拥塞算法
位基服务(LBS, Location-Based Service),一直以来是一个研究热点问题。随着移动互联网的迅猛发展,近几年来,智能移动终端越来越多地出现在人们的工作和生活中,扮演着举足轻
随着互联网技术的飞速迅猛发展,互联网用户可以更加容易地从网络上获取日常关心的热点话题。网络新闻已然成为人们获取新闻信息的主要媒介之一,相比传统新闻媒体,网络新闻在
查询选择率的估计是查询处理和优化的重要问题之一。在大多数数据库系统中,查询优化的任务是选择一个有效的执行计划,最优计划的选取需要对每个可选计划的代价给出精确的估计
关联规则挖掘是数据挖掘领域一个重要的研究课题,传统的关联规则挖掘中只考虑项目在事务中出现与否。然而,在一条事务中,顾客可能购买同一种商品多个,而每件商品的利润也不尽相同