支持向量机在基因表达数据分类中的研究

被引量 : 0次 | 上传用户:shcxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术作为一种新的分子生物学技术,是影响深远的重大科技成就,它的出现对生物信息学产生一场革命,为生物信息学研究提供重要手段。通过基因芯片技术可以方便快捷的产生大量的基因表达数据,这些数据可以表现任何给定条件下的基因表达模式,从而能够在基因组水平上以系统的、全局的观念去研究生命现象及其本质。 支持向量机(Support Vector Machine,SVM)是一类基于统计学习理论的新型机器学习方法。由于它采用了结构风险最小化原则,能较好的解决小样本学习的问题,还采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度。正因为SVM有较完备的理论基础和较好的学习性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势,所以成为当前国际机器学习领域的研究热点,并在很多领域都得到了成功的应用。微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。 通过支持向量机训练算法对基因表达数据进行分类训练,为分析基因数据提供有效的手段。本文主要研究基于基因表达数据的支持向量机分类方法,并对已有的算法与模型当中存在的问题提出改进。针对基于基因表达数据的分类,本文从特征基因选择和支持向量机分类算法两个方面进行了改进。针对基因表达数据集具有“样本数目少,基因数目庞大”的特点,本文通过特征基因选择提高分类精度,采用基于相关性的递归特征消除方法。该方法通过计算基因间的相关性,在寻求数据最小冗余的同时,考虑了如何避免过度删除与目标表现型相关的基因。使用这种方法选择特征基因子集可度提高分类性能,特征选择效率也较高。在分析传统的SVM算法的基础上,本文对贯序最小优化算法作适当改进,以提高分类精度和训练速度。该算法采用径向基核函数,通过调整参数,优化支持向量机分类性能。实验结果表明新算法的分类准确率与传统的SVM算法相比有所提高。
其他文献
目的 了解我国胆囊癌人群、地理和时间分布和特征。方法 回顾性分析 392 2例全国胆囊癌临床流行病学调查 (1986年 1月至 1998年 12月 )资料 ;结果 我国胆囊癌 (1)占同期胆
随着经济全球化的推进,中国国民经济取得了突飞猛进地发展,中国企业的管理水平,经济效益也都有了较大幅度提高。中国的物流产业虽然从低到高、从小到大、发展迅速、成绩卓著,
最近三十多年来,特别是布雷顿森林体系崩溃后,利率市场和外汇市场的频繁波动使得跨国经营企业面临着巨大的风险。同时,衍生产品市场也获得了巨大发展。进入90年代后,国际金融
著名的美籍华人作曲家周文中作为海外华人"艺术三宝"之一,其音乐作品体现出中西合璧的风格,预示着世界音乐发展的前景。他把自己在美国音乐教育的辉煌归因为对中国传统文化孜
<正>看一个项目是不是真正的"互联网+",关键是看原有的非互联网业务,在与互联网连接后有无产生质变,并且这种质变不在于提升效率,而是体现在供需的重构上。最近看到一些互联
本文共分五章。 第一章:文献综述,概括了复方化学消毒剂中邻苯二甲醛(OPA)、聚胺丙基双胍(PHMB)、苯扎氯铵(BAC)、苯扎溴铵(BAB)、戊二醛(GAT)和氯己定检测方法的现状和进展情况,分别介
目的研究健康教育在四肢长骨骨折患者护理中的应用效果。方法选取荥阳市人民医院2015年6月-2018年1月期间收治的四肢长骨骨折患者100例,随机分为对照组和试验组,每组各50例。
云南是一个山地占全省面积84%、典型的低纬度高海拔山区省份,坡度≥14%(8°)的坡耕地占全省耕地面积284.45万公顷的71.06%。坡耕地比重大,加之耕作管理不当,造成严重的水土流
<正> 寻找更灵活、更便捷的融资方式,以配合企业的经营节奏,"随需而取",尽可能发挥资金使用效益,更科学地控制公司财务成本:这是出口企业的多年夙愿。海华轻工业贸易公司最近
世界贸易组织(WTO)为多边贸易体制提供了组织基础和法律基础,其争端解决机制为WTO多边贸易体制的贯彻执行提供了最有力的保障和可预见性。WTO涉及国际贸易规则,但它和人权保