基因分类及基因表达数据分析方法的研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:cs80085829
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划(Human Genome Project)的基本完成,生命科学的研究进入了后基因组时代(Post-Genome Era),在后基因组时代,生命科学研究的重点从单个基因的研究上升到对整个基因组功能和动态变化规律的研究,从而产生了对海量生物信息进行处理的需求;而计算机技术的革命性发展,形成了处理海量生物信息的能力。于是,生物信息学便在综合计算生物学的研究和生物学信息的计算机处理的基础上迅速而成功地发展起来。生物信息学是计算机和网络大发展、各种生物数据库迅猛增长形势下如何组织数据,并从数据中提取生物学新知识的学问。基因芯片或微阵列技术(Gene Chip or Microarrays)是最近分子生物学实验技术的一个突破,利用该技术可以同时对成千上万个基因的表达数据进行平行分析,产生了海量的有用数据,分析与整理这些数据成为利用这一技术的一个主要瓶颈问题。本文主要研究基因分类及基因表达数据分析方法,主要工作和创新点概括如下:(1)介绍了基因分类的发展概况、微阵列技术以及常用的分类算法,并通过实验进行性能评价,为本文后续章节的研究提供理论和实验基础。(2)基因选择是基因芯片数据分析中的一个重要问题,要进行基因选择的主要原因在于基因数远远大于实验样本数。为此本文把蚁群优化算法(Ant ColonyOptimization Algorithm,ACO Algorithm)引入基因选择领域,并用基因与类别的相关性分析所得值初始化最优化问题,缩短了找寻最优解的时间;以基因子集整体的样本辨别能力与它所含基因间的平均距离的线性表达作为目标函数,有利于在找到关键基因的同时消除冗余;同时,不同于一般的包装基因选择算法,在计算目标函数的时候不需要对每个基因子集进行分类准确度的计算,从而有效地降低了计算复杂度,提高了方法的灵活性和适应性。(3)独立分量分析(Independent Component Analysis,简称ICA)是应用于基因分类的一种统计方法。但独立分量分析中的估计分离矩阵算法主要采用随机梯度算法和自然梯度算法,这些基于梯度下降的寻优算法很容易陷入局部极值,所得结果不精确。本文提出了一种基于遗传算法的基因分类算法,其基本思想是利用遗传算法代替独立分量分析中传统的估计分离矩阵算法,对基因表达数据进行分类,克服了结果不精确的问题。实验结果表明,该分类方法获得了更好的分类效果。(4)本文从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的SVM算法和KNN算法两者结合成为一种新的应用于基因表达数据分类的算法,并针对基因表达数据分类数据集中“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余。实验结果表明,新方法可有效提高分类准确率和特征选取的效率。(5)针对基因表达数据的特征和单个分类器在进行基因分类时适用范围有限、分类准确度不高等问题,提出了一种新的基于神经网络的融合规则的多分类器组合模型的基因分类算法,克服了单个分类在进行基因分类时所呈现的不足,实验表明基于多分类器组合模型的基因分类算法能有效提高分类准确度,并能扩大分类器的适用范围。(6)聚类分析已经成为基因表达数据分析中的一种非常重要的分析方法,但怎样结合其他高层次的生物学知识对聚类结果进行进一步的分析和解释依然是功能基因组研究中一个亟待解决的问题。为此,本文提出一种简单的算法,结合GO和KEGG调控代谢路径注释信息对聚类结果进行分析,获得具有显著功能注释关联的共表达基因集合。然后在此基础上开发了相应的自动分析软件SigClust,同时用一组基因表达数据对该软件的预测能力进行了验证。
其他文献
研究背景:深静脉血栓(deep vein thrombosis,DVT)是发生于下肢深静脉的常见疾病,发病率超过1‰,是第三大血管性疾病,DVT常导致下肢肿胀、疼痛及溃疡形成外,50%的患者可合并肺
目的:探索建立一种评价强直性脊柱炎(AS)患者髋关节结构受累程度的新方法,并对该方法的可靠性、便捷性和对髋关节结构改变的敏感性进行初步验证。方法:根据AS髋关节受累的放射学特点并参考已有评价体系,新的评价方法从关节面侵蚀、硬化和关节间隙狭窄程度三个方面评价AS髋关节受累的放射学改变。由两位观察者按照新方法对研究对象在基线期和随访期内拍摄的骨盆正位片进行独立、盲法评分,通过计算观察者内和观察者间变异
农业保险,是世界各国鼓励和保护农业发展惯用政策,降低了农业生产带来的生产风险,保障了农业生产者的自身利益,增强了农业生产的可持续性。我国地域辽阔、气候复杂多样,有些
本文通过分析我国《民法总则》诉讼时效制度的价值理由和相应的法律规范,评估《民法总则》第九章的立法技术。我国诉讼时效制度具有督促权利人行使权利、保护债务人免于举证
在计算电磁学领域,时域有限差分(finite-difference time-domain,FDTD)法有着目前还不能被其他数值计算方法所取代的地位,至今仍吸引着大量国内外研究人员和学者不断地探索和
阐述了发展性照顾在早产儿护理中的实施方法和实施效果。通过改善NICU工作环境和工作行为,减少噪音、光线、侵袭性操作对早产儿的不良刺激,为其提供适宜的温湿度环境,选择合
当今时代,世界出现了全球化、多极化趋势,各个国家和地区间的经济合作、政治往来、文化交流不断加强,同时在理论和实践领域出现了许多新问题。解决这些问题,需要运用矛盾分析
在自然界中,许多疾病都是由宿主体内的寄生虫入侵而导致的,如血吸虫病、肝吸虫病、肠吸虫病、肺吸虫病、美洲锥虫病等。这些寄生虫的大量繁殖会导致宿主细胞密度的降低,甚至
双语双文化人才培养是推进"一带一路"倡议的需要,也是我国沿线民族地区高校发挥服务社会功能的重要方式。目前我国"一带一路"沿线民族地区高校双语双文化人才培养的理念、师
对高炉煤气柜出现的立柱与侧板开裂、侧板变形,活塞运行中出现的异响,活塞油沟密封油出现的气泡,导轮与侧板磨损严重等故障进行分析,提出解决措施并实施。