模糊支持向量机的研究及其在基因分类中的应用

被引量 : 3次 | 上传用户:zhaohuihuang8801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机作为一种机器学习方法,能够有效地解决局部极小、过学习和维数灾难等问题。尽管如此,训练时间长、易受训练样本中噪声或孤立点影响等缺陷成为支持向量机在实际应用中的短板。为了更好地解决噪声、孤立点问题,模糊支持向量机应运而生,它根据各样本点在分类过程起到的不同作用而对其赋予不同的隶属度值,从而有效地解决了噪声点问题,使得分类效果更为精确。基因分类是生物信息领域一个亟待解决的问题,其研究、分析对辅助疾病的诊断和治疗有很高的医学应用价值。随着基因数据的处理及挖掘技术的发展,支持向量机作为一种潜在有效的数据挖掘技术已经成为基因分类的一个重要工具。本文以此为背景,着重研究了模糊支持向量机中隶属度函数的设计方法及其在基因分类中的应用,主要工作如下:1.现有的隶属度函数大多是根据样本点与其类中心之间的距离来设计的,这类设计方法往往对样本的几何分布存在依赖性,而且忽略了样本点的空间关系及其本身的类别属性在分类中所起的作用。针对这些问题,提出两种改进的模糊支持向量机:基于类内超平面的改进模糊支持向量(PHFSVM)及基于类向心度的模糊支持向量机(CCD-FSVM)。PHFSVM用类内超平面代替类中心,根据每类样本数据与其类内超平面的距离定义隶属度,加大了对容易被错分样本的惩罚,同时对离分类超平面较远且不可能成为支持向量的样本直接赋予较小的隶属度值,直接减少了求解隶属度的计算量;CCD-FSVM结合样本点与类中心、类中样本点之间的联系,用类向心度来表示这种关系,而且可以通过向心度的大小,对混合度比较高的样本进行区分,从而达到提高分类精度的效果。2.传统支持向量机建立在样本数量大体一致的基础上,当被用于不平衡数据的分类时,就会产生很大的偏向性,因而不能对少数类样本正确分类,降低了分类性能。在不平衡数据分类问题的实际应用中,少数类样本的信息往往对分类更加重要,人们更希望算法能够提高对少数类样本的识别率。文中分析了样本数量在隶属度函数设计过程中所起的作用,提出基于不平衡数据分类的模糊支持向量机(BFSVM),它在考虑样本点关系的同时,加入了样本数对隶属度的影响,从而改善了不平衡数据分类中对少数样本分类的识别率。3.基因数据的特点是小样本、高维度,结合基因的生物学意义,在对其分类之前需要进行降维处理。文中用顺序向前浮动搜索算法找出信息基因,并将文中提出的三种模糊支持向量机算法应用到结肠癌数据的分类中,通过实验结果验证了模糊支持向量机在基因分类中的有效性。
其他文献
目的探讨代谢综合征(MS)患者听觉功能早期损害的听力学特征,为研究和防治耳聋提供临床资料。方法选择20-50岁纯音听阈正常的健康者120例(240耳)作为对照组,同等年龄、纯音听阈正
对于中国电视纪录片的发展来说,2011年可以说是个重要的分水岭。首先,2011年1月1日中央电视台纪录片频道正式开播,同步推出国内中文版和国外英文版,实现在全球60个国家和地区落地
大型超市的节能运营管理不仅要通过优化设备运行,提高用电效率和单位能耗的利润率,还可以提高室内环境质量,达到人体热舒适,为顾客提供一个满意的购物环境。本文旨在通过对大型超
浙江红山茶是山茶科山茶属的重要树种,树形优美、冬末春初开花,花大、色彩艳丽,是非常重要的冬春开花的观赏树种;其茶油富含不饱和脂肪酸,是高质量的食用油,被称之为东方橄榄油。本
目的观察复方樟柳碱治疗眼肌麻痹的效果。方法治疗组(26例,26只眼)用复方樟柳碱注射液2mL患侧颞浅动脉旁皮下注射.每天1次.14d为一疗程。连续2个疗程。对照组(26例26只眼)用皮质激素
随着中国现代化进程的不断发展,中国的高速路网也在不断扩张,而其中制约高速路网发展的长、特长公路隧道的兴建工作也在大规模开展着。通风问题一直是困扰长、特长公路隧道发展
自上世纪90年代以来,我国上市家族企业经历了从无到有,由少到多的过程,并逐渐成为我国主要经济形式之一,成为国民经济发展重要的推动力量。政府对家族企业给予前所未有的重视,从政
近几年,人们逐渐认识到了自身身体健康的重要性,因此很多医疗机构都增设了亚健康诊疗部门,通过定期检查及早的发现身体的健康问题。但是这样还是不会及时的发现潜在的健康问
目的解决联合应用计算机辅助导航和个体化定制假体治疗髋臼恶性肿瘤的关键技术难题,探索计算机导航辅助髋臼肿瘤精确切除与个体化定制假体重建的有效方法,评价其临床治疗效果。
科学发展观在继承邓小平、江泽民对人的价值论述的基础上,更加明确具体地提出了人的价值思想。以人的发展为中心价值思想的提出,具有中国社会发展的历史必然性,具有新的历史形势