生物信息数据挖掘中的若干方法及其应用研究

来源 :大连理工大学 | 被引量 : 5次 | 上传用户:yt58458665
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多生物(包括人在内)的基因组测序已经完成或接近完成,在揭示这些巨量数据所蕴涵的信息时,产生了一门新的交叉学科—生物信息学,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。数据挖掘技术用于在数据库中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文探讨若干生物信息数据挖掘的方法及其应用,主要工作如下: 1.用支持向量机和FDOD两种方法对同源寡聚蛋白质进行了分类研究。Garian R.利用决策树方法从蛋白质一级结构出发对同源二聚体和同源非二聚体进行了分类,证实了蛋白质一级结构即氨基酸序列包含四级结构信息。本文用SVM和FDOD两种方法对同源二聚体和同源非二聚体进行分类,利用原始序列的子序列分布作为特征向量。采用和决策树方法同样的数据集,两种方法均大幅度提高了预测准确率。本文也对同源二聚体、同源三聚体、同源四聚体和同源六聚体进行了分类,取得了好的结果。 2.构造了基于线性规划的ν-SVM分类器。Scholkopf B等提出的基于二次规划的ν-支持向量机(ν-SVM)相比标准的SVM,其优势在于可以控制支持向量的数目和误差,但由于增加了模型的复杂性,限制了其应用。本文构造了一种基于线性规划的ν-SVM分类器,模型简单,参数ν具有明确的意义,同样可以控制支持向量的数目和误差,可以直接利用比较成熟的线性规划算法。数值试验表明,本文提出的基于线性规划的ν-SVM的训练速度要比基于二次规划的ν-SVM快得多,而分类效果两者相当。 3.提出了无参数鲁棒线性规划支持向量机分类的牛顿算法。Mangasarian O L最近提出的无参数鲁棒线性规划支持向量机克服了标准SVM需要选取正则化参数等一些缺点,其模型是一个线性规划。本文给出了这种线性规划的精确的最小2-范数解,在此基础上提出了快速的牛顿算法,此算法只需要一个线性方程组解算器。理论、数值实验以及在癌症基因表达数据分类上的应用都表明了用牛顿算法实现的无参数鲁棒线性规划支持向量机模型合理、简单,算法快速、容易实现。 4.用FDOD方法对DNA序列进行相似性分析。序列的比较是生物信息学中最常用的研究手段之一,其根本任务是发现序列之间的相似性和不相似性。序列比对是序列比较的主要方法,但有其不足之处,所以很多人寻求用其他方法来比较DNA序列。本文
其他文献
<正>改革开放以来,中国进入了解放思想、学术争鸣的新时期。中国共产党拨乱反正,坚持和发展马克思主义,创立了中国特色社会主义理论和制度。中共十七大报告指出,改革开放以来
[目的]更新护理观念,探索护理管理模式,进一步深化以病人为中心的整体护理,提高护理质量。[方法]2007年12月—2008年6月运用规范后的晨会交接班程序进行交接班,并对执行新程
目的探讨调中汤治疗脾胃不和型小儿厌食症的临床疗效。方法选取2010年4月—2012年10月在该院儿科治疗脾胃不和型小儿厌食症的患儿62例,将其随机分成两组。对照组(n=31)给予复
L-组氨酸是含咪唑核的碱性氨基酸。L-组氨酸是人体和动物体内的半必需氨基酸,对婴儿则为必需氨基酸。在医药工业上具有广泛的用途。我国组氨酸的生产主要是以水解猪血粉提取
语言发现程序或分析程序是田野调查不能绕开的问题,音乐中核心语音单位的提取程序也是不能绕开的问题。核心语音单位是只能区别语素音形并且不能通过规则推导出来的语音单位,
地震灾害是建筑设计过程中必须予以考虑的重要灾害内容,其对于建筑结构的安全性、稳定性以及实用性等有着非常剧烈的影响,高等级地震的作用下建筑结构的变化甚至会直接影响到
本文主要以三个平面的语法理论为指导思想,按照形式和意义相结合、静态和动态相结合、描写和解释相结合的原则,重点研究现代汉语定语的语义、语用方面的特点、规律,并探讨其
"死"的本义是"生命终结",近代汉语中出现了作程度补语的用法。文章立足于程度补语"死"的历时演变,探讨"死"程度义获得的机制及程度副词的产生过程,同时结合类型学上的证据,探
本文通过优化合金成分设计,调节Mn、Cr、Ni三种元素的不同含量,设计了1#~9#九种成分不同的Fe-Mn-Si基形状记忆合金,以提高合金的形状记忆效应。采用弯曲变形法,结合合金的力学
随着国际分工和协作的不断深化,世界各国之间的经济联系日益紧密,经济全球化已经成为当今世界经济发展的一个显著特征和不可逆转的趋势。经济全球化是世界各国经济在全球范围