基因表达谱的数据挖掘技术研究及应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:jiangyanxiaonvzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片是现代分子生物学、生物信息学、材料学、计算机科学及微加工技术等领域的高新技术相结合的产物。通过基因表达技术可以同时观测到在某一生命现象中成千上万个基因的动态表达水平,由此产生了海量的数据。使用数据挖掘技术分析这些数据可以得到有用的知识,从而在基因组水平上以系统的、全局的观念去研究生命现象及其本质。基因表达谱上的数据挖掘技术的研究和应用已成为热点问题。应用于基因表达谱上的数据挖掘技术主要有聚类、分类以及基因调控网络建模等。本文针对基因表达谱数据的预处理、聚类及有效性分析、分类、调控网络建模等方面开展研究。 本文讨论了使用主成份分析方法和小波变换方法对基因表达数据进行预处理,实现基因表达数据的降维和去噪,便于数据可视化,并能提高数据挖掘算法的性能。 本文研究了yeung提出的用于聚类有效性检验的FOM方法,并针对FOM方法的不足,提出了EFOM方法。针对基于模型的聚类方法分析基因表达谱数据,文中主要讨论了自组织图模型和高斯混合模型如何应用于基因表达数据的聚类分析,并针对如何进行模型选择从而确定最佳的类别数目进行了研究。由于高斯混合模型的训练算法复杂度较高,通过主成份分析降维后不但降低了聚类的算法复杂度,而且聚类效果有所提高。 本文讨论了基因表达谱数据的分类分析方法,其中包括基于基因的分类分析和基于样本的分类,针对基因选择方法对分类正确率的影响进行了实验研究。另外,为了解决分类准确率低且分类器泛化能力差这一问题,本文讨论并通过实验分析了基于样本扰动的多分类器集成方法,并在此基础上提出基于小波变换的样本扰动的多分类器集成方法,取得了良好的结果。 本文讨论了如何采用布尔网络模型进行基因调控网络建模。在akutsu提出的基因网络的辨识算法以及liang提出的REVEAL算法的基础上,提出了在集群环境下的并行算法,并就如何提高加速比进行了讨论。在集群系统——南开之星上实现的并行算法,加速比达到了理想效果。 基于本文的研究工作,设计和开发了基因挖掘系统GeneMiner。GeneMiner实现了基于基因表达数据的多种数据挖掘算法,并使用WebService技术对其进行封装,使得该系统能够在多种平台多种系统上运行。
其他文献
本文建立了EPS动力学模型和ASS整车动力学系统模型,分析两个系统之间的相互影响,建立了EPS和ASS的集成模型,综合考虑路面干扰与转向行为对车身姿态的影响、EPS对操纵稳定性的
无线传感器网络(Wireless Sensor Network)融合了微传感器、嵌入式计算、现代网络和无线通信四大技术,作为一种新的计算模式推动着科技的发展和社会的进步。它能够通过各类集
姿态确定与控制系统是卫星设计的重要组成部分。本文以某在研卫星(MTS)为背景,对三轴稳定卫星姿态控制系统的分析、设计和仿真进行了深入的研究,主要工作有以下几个方面: 首
机器视觉技术具有功能强、精度高、稳定性好等优点,随着工业智能化的不断发展其在各类工业领域广泛应用。其中,基于机器视觉的产品外观检测是近年来的一个热门研究课题。产品外观一般分为平面与曲面两种类型,不同类型的外观检测系统硬件搭建有所区别;当工件检测精度高以及检测区域不固定时,普通的定位算法和区域分割算法就不能满足要求;工件外观检测除了包括表面瑕疵检测还有一些高度测量方面的内容(如:3D图像转换成2D图
传统的图像分割方法主要是基于图像的灰度特征的。分割算法可分为利用区域间灰度不连续性的基于边缘的算法和利用区域内灰度相似性的基于阈值的算法。  人类视觉系统初级阶
随着人工智能技术、机器人技术以及多智能体系统(MAS)等研究的深入,如何组织和控制多个机器人来协作完成单个机器人无法完成的复杂任务已经成为机器人学研究领域的新课题,而
随着无线通信和移动互联网技术的快速发展,越来越多的人们离不开无线网络带来的实时性、快捷性和方便性。尤其是人们在室内环境中使用移动终端使用无线通信的情况占据大部分
  本文在综合分析现代物流、信息技术、人工智能等相关领域的最新研究成果的基础上,明确提出了ILS的概念,分析了其内涵和特点,重点研究了ILS的智能机理。提出了基于Agent的复
人眼对颜色的敏感度比对亮度的敏感度更强,彩色图象包含更大的信息量和更丰富的视觉感受。长期以来,在视觉研究领域的大部分研究都是针对灰度图象的。随着彩色图象设备越来越受
自ENCODE计划以来,人类对于DNA碱基代码功能和生物作用信息的探索从未间断。研究基因编码过程的核心是DNA蛋白结合位点分析,而理解 DNA蛋白与结合位点之间相互作用是分析基因表