支持向量机在非球形分布数据集和肿瘤基因中的应用研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:diana20xx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机是利用最优化方法来解决机器学习问题的新工具,是20世纪90年代中期由Vapnik[1]等人提出的。仅十几年的时间,不论是在理论上还是在应用上都有了突破性的进展。支持向量机作为一种重要的分类工具尤其在处理高维数、小样本等数据集时,表现出了较显著的优势,因此,随着研究的不断深入,其具体工程方面的应用也越来越多。但支持向量机对噪声点过于敏感,因此有效地降低噪声干扰可以使支持向量机的分类性能更高。在生物学中,利用基因芯片技术可以得到样本数不多、维数却非常高的基因表达谱,从基因表达谱中准确而有效地将肿瘤样本辨识出来对临床医学是极其有意义也是十分有帮助的。在面对小样本、高维数这样的数据集时,支持向量机表现出了明显的优势,因此,研究和构造出一个更适合辨识肿瘤基因表达谱的分类器成为大家研究的热点。本文的主要工作如下:1.传统支持向量机对噪声点的干扰太过敏感,模糊支持向量机(FSVM)对数据集的分布形状又过分依赖,针对此问题,首先构造一个噪声过滤系统(NFS),将样本集中极可能是噪声的数据点过滤掉;然后将文献[3]中提出的等价类系数作为惩戒因子融入到传统的支持向量机模型中,进一步降低噪声数据对分类的影响。该方法在处理含有较多噪声数据又呈现非球形分布的数据集时,表现出了较好的抗噪性和分类能力。2.对肿瘤基因表达谱进行分析,从而有效区分正常样本与肿瘤样本的关键是:准确找出能够决定样本类别的最少特征基因,并用一个性能较好的分类器进行分类预测。针对该问题,首先用修订的特征记分准则(1RFSC)去除分类无关基因;然后对两两冗余法进行改进,提出强相关树法用于冗余基因的去除;最后对粗糙支持向量机(RSVM)改进,提出近似等价粗糙支持向量机(AE-RSVM)对样本集进行分类测试。以肿瘤样本集为例进行测试,实验结果表明了上述提出方法的可行性和有效性。
其他文献
秘密共享作为现代密码学的一个重要分支,能够有效地保证信息的安全,在重要信息和秘密数据的安全保存、传输及合法利用中起着关键的作用,成为信息安全领域的研究热点。秘密份额交
在现实世界的一些生产制造企业中,存在一类由生产加工站作为加工主体的生产线,其中,加工站由传送带输送工件进行加工,这类系统称为传送带给料加工站(Conveyor-serviced production station, CSPS)。由于专业化、规模化的需求,生产线往往有多道工序,一道工序由多个CSPS组成,称为多工序CSPS系统。多工序CSPS系统中,每道工序拥有各自的一般站点,在相邻的上游工序和下
随着计算机网络的发展和多媒体压缩技术的逐步成熟,多媒体数据在网络上的传播变的日益普及,使得多媒体数据的拷贝和分发变的容易。因此,如何保护媒体的数字版权,己成为当前亟待解
全局优化问题大量存在于科学研究和工程应用的各个领域,对全局优化方法的改进与应用具有重要的理论意义和实用价值。微分进化算法是一种模仿自然界生物进化过程中“优胜劣汰、
无线传感器网络(WSNs)是由大量的传感器以自组织和多跳的方式构成的无线网络,它综合了传感器技术、嵌入式计算技术、无线通信技术和分布式信息处理技术等,能够利用传感器实时监
光学层析成像技术以近红外光作为光源照射生物组织,对组织体的光学属性参数进行成像。光学层析成像技术因其安全可靠、无放射性损伤而受到人们的关注,采用这种技术的成像设备
21世纪,社会对知识和人才的需求不断增大,现今社会需要什么样的人才,在高校现有的培养体系下,高校培养的人才质量如何,学生是否能够实现就业,所掌握的知识和技能是否能够满足
随着人类基因草图的绘制完成,基因组学研究已进入了“功能基因组学"时代,如何在海量的序列数据中确定基因及它们的调控网络已经成为目前最具挑战性的任务。启动子作为控制基
随着互联网时代和技术的发展进步,以高度可集成性、松耦合性、可复用性和数据信息规范性为特点的SOA应运而生,并获得了人们的青睐。WEB服务是SOA的实现方式之一,它以XML、WSDL、
随着互联网技术的成熟,“软件即服务”的思想在软件行业中得到了确认,软件由传统意义上的产品转变为服务。在SaaS技术的发展过程中,多租户软件的发展尤为引人注目,其最主要的