基于降维的基因表达数据分类算法研究

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:MKLIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用基因芯片技术能够做到同时对多到数以万计的基因进行并行分析,随着该技术越来越成熟并得到广泛应用,现在已经有越来越多的基因表达数据测定出来,亟需处理,借助于计算机工具以及机器学习方法对这些大量数据进行分析是现在一个很重要的研究领域。其中,对基因表达数据的分类研究是该领域的一个热点,通过分类能够帮助研究者发现正常细胞组织与疾病组织之间基因的本质差异,识别致病基因,对基因型疾病的临床诊断和治疗具有重要的意义。  基因表达数据具有“样本少、维数高、分布不平衡”的特点,这给分类带来了很多的困难和挑战。目前解决此问题的一个有效方法是在分类前对高维数据进行特征提取和降维,以达到去除与分类无关的基因、降低计算复杂度、提高分类准确率的目的。  本文首先分别用PCA、ReliefF、LLE和Isomap几种降维算法对原始数据进行降维,然后对降维后的基因表达数据用朴素贝叶斯分类算法进行分类,并通过分类结果比较了不同降维方法的性能。然后在此基础上,本文提出了RLLE(relevant component based LLE)降维算法,把ReliefF特征提取与LLE降维相结合,试验结果表明,RLLE算法的降维效果要好于传统的几种降维方法。  Alex Rodriguez,Alessandro Laio提出的“基于快速寻找密度峰值的聚类算法”是一种很简洁且聚类效果很好的聚类算法,但是该算法对“样本少,维数高”的基因表达数据的聚类效果并不是很好,不能分离出正确数目的类中心。本文采用mRMR特征提取算法提取原始数据中排名靠前的特征达到降维目的,然后对降维后的基因表达数据重新进行聚类,能够较准确地分离出正确数目的类中心。在此基础上,将该聚类算法发展为有监督特征提取的分类算法:用训练集进行特征提取,再将训练集和测试集合并并聚类,最后根据聚类结果判定测试样本的类别。分类结果表明,基于mRMR-快速聚类分类算法的分类准确率要好于k近邻分类和朴素贝叶斯分类。
其他文献
近年来移动终端及虚拟现实头盔设备得到了快速发展,三维网格模型是该领域的主要显示内容,它是由三维点云数据及复杂的几何拓扑结构共同构成。随着三维点云数据的获取及处理逐渐
随着计算机和移动互联网的进一步发展,特别是近年来云计算和大数据技术的快速发展,海量的数据处理对数据的存储、访问提出了更为严苛的要求。传统的机械磁盘越来越显得力不从心
访问控制是用来保护系统资源免于被非法用户访问、更改、破坏的一项重要技术。目前,基于角色的访问控制(Role-Based Access Control,RBAC)和基于任务的访问控制(Task-Based Acc
激光扫描技术的产生和发展,为空间三维信息的获取提供了全新的技术手段。通过结合定位定向系统,车载激光扫描系统可以实现直接地理定位,并且能够以较低的成本快速获取大范围场景
随着Web Service技术的日益广泛应用,它的安全性问题也逐渐地被人们所关注,并已经成为制约其发展的重要因素。如何向开发者提供一些有效的安全组件,为Web Service搭建综合和健壮
本论文详细论述了作者攻读硕士学位期间在碰撞检测方面从事的研究工作。主要从事了基于图像空间的碰撞检测算法的研究工作。碰撞检测是机器人、动画仿真与虚拟现实等领域中一
本文提出了一种基于分层无线自组网的实时视频传输和管理系统,该系统结合实时视频传输、视频会议以及视频管理的特点,并且应用流媒体技术和无线网络技术尤其是无线自组网技术
本文主要研究超分辨率图像重建以及图像去噪技术。基于学习的单帧超分辨率重建问题通过机器学习方法从训练样本集中提取所需的高频信息,从而对低分辨率测试样本缺少的信息进行
近年来,随着高速公路收费业务的飞速发展,运营过程中积累了大量的历史数据。如何对这些历史数据进行有效的分析,发现知识,用以指导经营决策,已成为企业在竞争中制胜的关键。
企业信息检索已成为信息检索领域的重点和难点,本文讨论了企业信息检索的现状和发展及其相关技术,设计并实现了一个基于概念的企业信息检索系统,利用查询扩展算法对用户输入的关