特征选择方法及在蛋白质组数据中的应用

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:koalaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是机器学习领域重要的研究内容之一。随着大数据时代的来临,数据呈现量大、维数超高的特点。另一方面,数据中也存在大量冗余及不相关的数据。这些现状导致许多机器学习方法计算效率变低、计算结果变差。采用特征选择算法预先去除冗余和不相关的特征,可以达到减小数据集,降低数据维数的目的。从而实现降低机器学习算法的时间复杂度,提高运行效率,并提高学习模型的预测精度。  另一方面,现代生物学与医学进入了系统研究的时代,生物学家从基因组与蛋白质组角度来研究和刻画细胞的活动。而这些数据呈现小样本、超高维的特点。在蛋白质组数据上的特征选择有显著的现实意义,生物学家测量了正常人群与某疾病人群的各种蛋白质的含量,他们需要知道哪些蛋白质与疾病密切相关,从而可以选择合适的生物标记或者药物的靶向蛋白。从数以万记的蛋白质种类中选择生物标记抽象地来说就是个特征选择问题。  本文首先对过滤式特征选择方法做了全面的评估,我们需要了解哪些特征选择方法性能更好一些。我们选择了十种代表性的特征选择算法,并把它们应用在了人体尿液蛋白质组数据集上,这些特征选择方法分别计算每个特征的分值并进行排名,最终每种特征选择方法分别选择了前5,10,20,50,100个特征。所选择的特征输入到经典的分类方法中,来评估所选择特征的优劣。实验表明,信息增益等方法性能相对出色一些。  此外,本文提出了两种完全不同的特征选择方法。第一种方法主要考虑了类标签的有序性,通过计算类与类之间的距离,来衡量特征与类标签的契合度;第二种方法基于支持向量机的思想,通过求解支持向量机的最优的分类超平面,并计算该超平面与各个特征之间的夹角,从而衡量每个特征在分类中的参与度。实验表明,这两种特征选择算法在人体尿液蛋白质组数据上有良好的效果。
其他文献
网络行为测量是互联网流量工程的重要组成部分。随着互联网的发展,理解网络行为对于网络管理、规划和发展都有重要意义。作为网络行为测量的一个分支,网络流量监测对网络的资源
伪相关反馈技术利用用户初始查询结果排序靠前的文档进行查询相关反馈,并假设这些反馈文档是用户查询相关的,但多数情况下这个假设并不成立。不相关文档参与查询相关反馈会带入
现代化的生产系统具有多变量、时变、非线性等特点,应用传统的控制理论已不能满足现代化的工业生产要求,只能应用智能控制理论,再加上计算机的快速运算、强大的信息储存能力以及
对等网络是近年来国际计算机网络领域研究的一个热点,是下一代Internet的关键技术。作为一种新兴技术,P2P网络技术还不够成熟和完善。P2P网络不仅有传统的C/S模式中的安全问
本文首先分析了网格的安全需求,提出了一个可实现的网格安全策略模型,并给出了模型的物理视图和逻辑视图。然后在分析RBAC模型的基础上,结合网格环境,扩展了RBAC,提出了基于角色的
本文研究了一个属于图论领域的优化问题,即MaximumSimpleSharing(MSS)问题。MsS问题的目标,是在一个二分无向图上寻找由互不相交的路径所构成的集合,并要求这个集合满足一些特定
随着软件规模的不断扩大,软件错误也越来越容易产生。尽早地检测软件中的错误是软件开发过程中的一个重要任务,也是降低软件开发成本的主要手段,因此很多的软件测试技术应运而生
近年来,对于高性能计算多计算机系统起到了越来越重要的作用。在多计算机系统互连网络中,如果处理器或传递信息的线路发生故障,将导致信息传递失败。如何提高互连网络的可靠
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。经过30多年的发展,软件复用技术已由探索阶段过渡到应用阶段。因此,如何利用复用技术进行软件开发是当前的
自由边界问题是边界为未知的一类偏微分方程的定解问题,其未知边界要作为解的一部分来确定。自由边界问题本质上都是非线性的,求解自由边界问题的数值方法主要可以划分为三类:边