基于mts-pca的特征选择方法研究及其在肿瘤分类中的应用

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:kingerfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物科学与计算机科学是目前发展最迅速的两大学科,而作为这两大学科的交叉产物—生物信息学在基因组研究中发挥了重要的作用,基因芯片是其中的一个崭新的研究领域。随着基因芯片技术的飞速发展,通过对肿瘤特征基因的选择来对肿瘤进行分类的技术得到了广泛的应用。但是基因数据中往往有大量冗余的无关基因信息,这些制约了从基因数据中得到有价值的分类信息。这些冗余的无关信息不但会增加数据处理的复杂度,同时也会降低所获取信息的质量。数据挖掘中的特征选择不仅可以去除基因数据中冗余的无关的基因信息,提高原始数据的质量,使得数据挖掘可以从基因数据中得到更有价值的信息,同时大大降低了数据挖掘的计算成本和获取冗余信息所耗费的成本。建立在统计学习理论的VC维理论和结构风险最小原理基础上的支持向量机(Support Vector Machines SVM),根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能力(Generalization Ability)。SVM凭借其具有良好的泛化能力和能得到最优解等优点,越来越受到研究者的重视,以SVM为中心的应用也开始多起来。本文将SVM作为基本分类器。本文的工作主要有(一)、对传统的t检验方法进行改进,提出了mts特征选择方法。我们的mts方法分成三个步骤来获取分类能力高的基因:第一步,为每一个基因计算一个得分;第二步,所有基因根据自己的得分按从大到小的顺序排列;第三步,选取得分高的部分基因作为下一步操作输入数据。该方法不但改进了传统的t检验方法只能处理两类问题的不足,而且避免了将得分为零但又具有良好分类能力的基因舍弃。(二)、结合mts方法和主成份分析方法提出了一种混合式特征选择方法mts-pca。在三个典型基因数据集(SRBCT数据集、急性白血病数据集和子宫瘤数据集)上进行实验,通过分析和比较实验结果得出,该方法具有一定的优势,并且在医学诊断领域中体现了良好的应用性。(三)、mts-pca方法与常用特征选择方法CS(class-separability)和Fisher-ratio特征选择方法的比较实验,实验结果同样显示了我们提出的方法的优越性。
其他文献
电能计量管理直接关系到电力企业的经济效益和用户电费的合理负担,电能计量的准确性、可靠性一直是电力部门和用电用户关注的焦点。为进一步提高电能计量的稳定性、安全性及数据传输的可靠性和完整性,本文在深入研究当前电能计量技术和GPRS通信技术的基础上,提出并实现了基于GPRS网络的、融合计算机技术和数据库技术的具有多种功能的电能计量数据采集系统。本文论述了GPRS网络结构和工作原理,在此基础上通过通信方案
报表是一种用直线、方格、文字、图表、数据等来组织和表示信息的媒介。报表展示引擎是报表工具软件系统的重要组成部分,它控制各种格式报表的产生与输出,它通常由报表生成引
乳腺癌是女性最常见的癌症之一。早期发现、早期诊断、早期治疗对医治乳腺癌、降低死亡率至关重要。开展基于乳腺X影像的适龄妇女的乳腺普查工作是早期检测乳腺癌的重要手段
无线传感器网络技术是一项综合了计算机、无线通信和传感器技术的多学科技术,受到人们的高度重视,并被广泛应用于各个领域。为了满足实际应用中的分析和决策需求,如何在提高
在解决复杂的实际优化问题时,经常会遇到具有多个极值的函数优化问题,这类问题被称为多峰函数的优化问题。由于其在实际优化问题中有着重要的应用价值,因而一直受到众多研究
研究群居性昆虫行为特征的科学家发现,昆虫每个个体能力十分有限,在群落一级上的合作基本上是自组织的,在许多场合中尽管这些合作可能很简单,但是却可以解决复杂的问题。群居
移动条件下的特定目标识别已成为计算机视觉领域研究的热点和难点,它在智能视频监控、机器人导航等方面发挥着重要的作用。本文主要对移动条件下特定目标的实时识别进行了研
随着微电子技术,计算机技术,航空技术的迅猛发展,新一代航空电子系统正向开放式,综合式,模块化的方向发展,已迈入综合模块化航空电子系统阶段。作为航电系统的重要部分,软件
网络视频内容审计实时地发现和获取网络中的所有视频流数据包,并在恢复出原始视频文件的基础上,根据既定的安全规则,完成对网络视频内容的审计分析,实现对网络视频信息的监管
随着互联网技术的普及和网络技术的不断发展,网络游戏作为一种娱乐工具正逐步走向人们的生活,网络游戏产业已经日益成为带动社会经济发展的一支重要力量。网络游戏之所以能够吸