基于微阵列数据的肿瘤标志物特征选择方法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:kinds1118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的不断发展,DNA测序技术在疾病预测和基因诊断方面的研究及应用变得越来越普遍。针对目前癌症病变高发的情况,引入DNA测序技术来帮助研究人员识别癌症标志物,对提高癌症患者的治愈率有很大的帮助。但是通过该技术获得的基因表达谱数据(微阵列数据)具有维数高、样本量少、分布不均匀和噪声多等特点,且噪声基因会降低癌症分类的准确性,让研究人员很难在短时间内对数据进行分析。因此,需要找到一种有效的方法对微阵列数据进行预处理。特征选择作为一种高效的数据预处理方法已成为生物信息领域研究的热点,被广泛应用到生物数据处理工作中。目前,已有一些特征选择方法被成功的应用到癌症数据分析中。其中,基于封装(Wrapper)式特征选择方法在寻找癌症标志物的过程中获得了较高的分类精度,从而吸引了很多研究人员的关注。Wrapper方法主要依赖于搜索策略的选择,使用不同的搜索策略处理数据,会得到不同的结果。根据微阵列数据的特性,本文提出了两种用来识别癌症标志物的特征选择算法。主要研究成果如下:(1)为了解决癌症微阵列数据造成的“维数灾难”等问题,本文结合过滤(Filter)方法和Wrapper方法的优势,在单一的化学反应优化算法(CRO)上提出了一种混合算法(IGICRO),并将其应用在高维癌症微阵列数据集上。提出该算法的目的是提高单一CRO算法的分类精度、收敛速度并识别出与癌症相关性较大的基因。该混合方法首先利用信息增益(IG)对数据集进行降维,然后在更新解的过程中加入邻域搜索机制来提高CRO的局部搜索性能,并改进了CRO四个操作算子的碰撞过程。实验结果显示IGICRO算法筛选到的特征子集数目较小,且相比其他对比算法获取到的分类准确率较高。(2)通过DNA测序技术获得的肺癌数据具有维数高、样本量少的特点。为了快速去除不相关特征,识别出与肺癌相关的基因,在标准和谐搜索算法的基础上,本文提出了一种改进的混合和谐搜索算法(MHS)。MHS方法首先采用多个过滤(Filter)方法进行数据筛选去除噪声基因,加入两个局部操作算子(单分子碰撞和多分子碰撞)来提高和谐搜索算法的局部搜索性能。实验结果表明,MHS算法结合K近邻(KNN)分类器在肺癌微阵列数据集上与对比算法相比,不仅可以有效去除无关基因,而且获得的分类精度也优于对比算法,实验对比验证了MHS算法在肺癌数据处理工作中具有较好的性能。
其他文献
微信平台作为中国网民使用人数和频率最高的社交类APP,在上线后承载了各式各样的功能,涵盖了社交、支付、内容阅读等多方面的内容,逐渐成为网民生活中不可或缺的部分。除去已
双相不锈钢作为一种含有奥氏体和铁素体两种不同组织的特殊钢材,因为兼有奥氏体和铁素体两种不同组织的性能特点,所以常作为一种高性能材料应用于石油、海洋、化工以及造纸等行业。节镍型双相不锈钢通过添加Mn元素来降低Ni含量的添加,是一种生产成本相对较低的经济型双相不锈钢。因为Mn对钢中奥氏体的稳定机理以及对层错能影响的差异,导致不同Mn含量对材料热变形行为的影响也会有所差异。本文通过控制添加几种不同Mn元
农业建设是国家和民族发展的物质保障,是衡量一个国家经济发展水平的重要指标,在国家发展战略中居于重要地位。李先念作为党的早期领导人之一,在农业建设和农业思想上做出过
代码评审是软件过程的重要组成部分,是代码质量保障的重要措施,其重要性在现代软件开发中日益凸显。然而,随着现代软件的快速发展,如何从大量相关人员中及时找到合适的评审者
排队现象在现实生活中随处可见,作为运筹学的重要分支,排队论一直是国内外学者的重要研究内容。在排队系统中,由于资源环境的限制,在持续高峰期经常出现拥堵现象,这不仅会降
改革开放40年,由国家推进的房地产制度构建及住房商品化制度改革极大地提高城镇居民的住房空间和居住品质。从总体上来看,中国房地产政策出台始终把握两条主线:一条是长期性
近年来数据呈现指数级增长,数据爆炸的年代显然已经到来。面对与日俱增的数据需要我们高效快速的摄取重要数据、剔除冗余数据。其中有一部分数据具有不确定性,而粗糙集及软集
钢管混凝土结构由于具有承载力高、延性性能好、易于施工、耐火耐腐蚀、经济效益好等优点,在大跨桥梁、工厂和高层建筑等实际工程中均有较为广泛的应用。碳纤维增强复合材料(
群推荐系统已经成为社交网络平台的重要工具,该系统面向群体用户提供兼顾个性化和整体满意度的产品和服务。现有的群推荐方法大多是对个性化推荐方法的集成和聚合,但都忽略了
目前,智能手机等移动设备已经成为我们日常生活中使用最广泛的拍照设备。在使用移动设备进行拍照的时候,经常会遇到一些高动态范围的场景。在这种场景下拍摄所得到的图像往往