带有不确定输入的支持向量机的研究及其生物信息学应用——基于单类支持向量机的候选基因排序

来源 :江南大学 | 被引量 : 0次 | 上传用户:nallysun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
致病基因是很多疾病发生的根本原因。寻找致病基因,或称鉴定致病基因是生物医学研究的一个基本问题,对于基因诊断、基因治疗和基因药物设计有着重要的现实意义。在寻找致病基因的过程中需要对大量的候选基因按致病的可能性高低进行优先级排序,这个排序过程叫做候选基因排序。对候选基因排序是寻找致病基因的重要步骤。   随着基因组学的发展,现在有许多种数据源可以用来对候选基因进行排序。这些生物数据不仅类型各异,而且多为带噪声的高维数据,另外,对于候选基因排序这个问题,相对于候选基因,往往只有少量的已知致病基因作为训练样本。为此,单类支持向量机的方法被用于解决候选基因排序这个问题。   支持向量机是基于统计学习理论新发展起来的一种机器学习方法,有着坚实的数学理论基础。它在解决小样本、非线性和高维模式识别问题中有优势,在文本分类、手写识别、图像分类、生物信息学等领域中获得了较好的应用。由于有着优良的性能,且能够方便处理各种类型的生物数据,因而支持向量机被广泛的用来解决生物信息学中的许多问题。单类支持向量机是基本的支持向量机算法在单类问题中的推广,已被成功应用于异常检测,目标识别等问题,基于单类支持向量机的候选基因排序是其在生物信息学中的又一新的应用。   在利用单类支持向量机对候选基因排序时会用到各种生物实验数据,这些实验数据往往带有误差和噪声。本文针对这一问题,在单类支持向量机的公式的中引入不确定输入量,经过公式推导进行扩展,得到带有不确定输入的单类支持向量机。这种扩展的单类支持向量机能够利用不确定输入数据对带有噪声的数据进行降噪,从而更好的利用带有噪声的数据对候选基因进行排序。为了融合多种数据源对候选基因排序,本文进一步提出一种基于单类支持向量机的数据融合方法,并取得了良好的实验效果。  
其他文献
在当前的信息时代,分布式数据库为海量的数据信息的存储、整合和共享提供了一个良好的平台,在企业、政府机关、军队等部门都有广泛的应用。然而,数据的安全是分布式数据库的
伴随着信息化的快速发展,企业系统的应用集成问题越来越受到人们的关注,主要集成技术(RMI,CORBA,DCOM)由于采用固有模型,过分依赖于自身协议,系统存在着灵活性和互操作性的缺
本文以中山大学与北京天下先科技有限公司合作申请的2007年度广州市科技局重点科技攻关项目(编号:200723-D0191)为研究背景,该项目的主要内容包括:(1)虚拟探究式教育网络游戏设
在当今信息时代,入侵检测作为一种主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,能够从网络安全的立体纵深、多层次防御的角度出发提供安全服务,由此成
近年来,移动互联网相关技术及其应用发展迅速,诸如智能手机、平板电脑、智能手表等智能移动终端设备已大大普及,各种移动应用软件已渗透到人们的日常出行、在线支付、网络社
主动形状模型是一种较为成熟的人脸特征点定位方法。它用局部纹理模型在特征点周围进行局部搜索,用全局统计模型约束特征点集组成的形状,二者反复迭代,最终收敛至最优形状。
本文对软件体系结构的历史发展、演变做了一定的研究。简要介绍了应用软件体系结构发展,从传统的客户机/服务器两层结构一直到以浏览器/服务器为代表的三层典型结构,同时指出
Web数据库根据用户提交的请求,将其内容以HTML页面的形式动态呈现出来,这些信息称之为Deep Web资源。而HTML语言的特点是在Web上发布的,内容多样,形式各异,使得Web上的数据处
智能制造系统是是当今研究的热点之一,相比传统制造系统可以通过利用智能制造技术、多代理技术(agent)以及无线通信蓝牙技术等多种技术来解决全局优化问题、面向生产任务的动态配置优化、实时响应问题、快速适应环境变化等问题。车间调度问题来源于不同的领域,如柔性制造系统,生产计划,计算机技术,后勤及通信等,这些问题的共同特性是没有一个有效的算法能在多项式时间内求出其最优解。作为处于制造系统的底层位置的车间
二氧化硫排放是造成我国大气环境污染及酸雨不断加剧的主要原因,燃煤机组所排放的烟气已成为二氧化硫排放的重要来源。有效控制燃煤机组二氧化硫的排放量是我国大气环境污染