基于邻域互信息的特征基因选择方法研究

被引量 : 0次 | 上传用户：justinhn

【摘要】

：

粗糙集理论是一种可以处理不精确、不确定、不完备和不一致数据的有效的数据分析工具。近年来,粗糙集理论凭借其独特的优势开始逐渐应用到生物信息学领域,并且在肿瘤分类特征

【作者】

：

徐天贺

【发表日期】

：

2014年期

【关键词】

：

邻域互信息 Relief算法自组织映射粒子群优化模糊C均值聚类特征基因选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

粗糙集理论是一种可以处理不精确、不确定、不完备和不一致数据的有效的数据分析工具。近年来,粗糙集理论凭借其独特的优势开始逐渐应用到生物信息学领域,并且在肿瘤分类特征基因选择方面取得了一些较好的研究成果。然而粗糙集理论是定义在等价关系基础上的,只能处理离散型数据,如果处理数值型数据则需要先对其进行离散化处理,这不仅需要花费大量的预处理时间,而且在离散化的过程中可能会丢失一些重要信息,从而导致分类精度下降。而邻域粗糙集理论能够直接处理数值型数据,可以直接应用于特征基因选择,从而可以节省大量的数据预处理时间,并且可以在一定程度上避免信息丢失,使得所选择的特征基因子集能够较大限度地保持原始数据集的分类能力。本文将邻域粗糙集理论应用到特征基因选择方法中,并将邻域互信息作为相关度的度量标准,提出一些特征基因选择算法。本文的主要创新点如下：(1)针对传统的特征选择方法在处理数值型数据时需要对其进行离散化处理,将导致部分重要信息丢失和分类精度下降等问题,本文基于邻域互信息对Relief算法进行改进,提出了一种NRFE_Relief算法,并用该算法对基因进行排序生成候选特征基因集合；引入能够直接处理数值型数据的邻域粗糙集属性约简模型,对候选特征基因集合进行属性约简,得到相关特征基因子集；再利用粒子群优化算法检测相关特征基因子集,选择出最优或次优的特征基因子集。在此基础上,构建了基于邻域粗糙集和粒子群优化的特征基因选择算法。实验结果表明,该算法可快速有效地选取肿瘤特征基因,并且能够获得较好的分类效果。(2)为了避免肿瘤无关基因以及噪声的影响,本文提出了一种基于邻域互信息和自组织映射的特征基因选择算法。该算法利用NRFE_Relief算法对基因进行排序,选择出初始的基因子集；采用能够直接处理基因数据的邻域互信息代替欧氏距离测量属性之间的相关性,对自组织映射聚类算法进行改进,并用改进后的自组织映射聚类算法对初始的基因子集进行聚类；定义了基于邻域互信息的属性重要性系数,从每一类簇中选择代表基因形成特征基因子集。实验结果表明,该算法可以有效地选取特征基因,从而提高了分类精度。(3)为克服K-means算法存在硬划分的不足和弥补模糊C均值聚类算法容易导致局部收敛和聚类效果不佳的缺陷,以及更好的处理数值型的基因数据,本文基于邻域粗糙集中的邻域关系和邻域互信息定义了属性的内聚度与属性间的邻域耦合度,提出了一种新的初始聚类中心选择算法,并基于此算法改进了模糊C均值聚类算法,利用改进的模糊C均值聚类算法对基因数据进行聚类；采用基于邻域互信息的属性重要性系数,挑选出每簇中重要性系数值最大的基因作为该簇的代表基因,进而提出了一种基于邻域粗糙集和模糊C均值聚类的特征基因选择算法。实验结果表明该算法能够有效的选取特征基因子集。

其他文献

纳豆芽孢杆菌发酵产蛋白酶工艺优化

纳豆芽孢杆菌是纳豆发酵生产的主要菌种,对其发酵产蛋白酶特性的探讨将有助于了解纳豆的发酵生产过程,为其提供理论指导。从不同纳豆产品中分离筛选得到一株高产蛋白酶的纳豆

期刊

纳豆芽孢杆菌蛋白酶发酵工艺优化响应面法

基于粗糙集理论的基因选择方法研究

粗糙集理论是一种新型的处理模糊性和不确定性知识的数学工具,作为一种新的知识获取方法,粗糙集理论能有效地分析不精确、不一致、不完全的各种信息。它无需提供待处理数据集

学位

基因选择粗糙集属性依赖度遗传算法粗糙遗传算法

当代西方政府绩效与绩效管理理论研究综述

政府绩效改革是西方国家在新公共管理思潮影响下风靡起来的一项管理改革举措,旨在提高政府机构的效率和公信力。近年来,西方国家公共管理的理论界对政府的绩效结构、绩效管理

期刊

政府绩效绩效测量绩效管理利益相关者

黄宗羲实学思想特点研究

黄宗羲实学的基本特点在于:坚持修正理学与发展实学的统一性,坚持经世致用与民主启蒙的统一性,坚持研究史学与创立实学的统一性。

期刊

实学黄宗羲基本特点

基于隐性知识共享的高等学校核心竞争力研究

随着科学技术的快速发展,人类已经进入到知识经济时代,知识资源成为社会发展的重要资源之一,高等学校作为知识收集、传播的重要载体,其知识管理的水平和质量越来越受到人们的

学位

隐性知识共享高校核心竞争力调查研究因子分析差异检验

浅谈基坑降水方案的选择

因地治宜采用合理的基坑降水方案非常重要,本文着重论述了基坑降水的几种方案及其适用范围。

期刊

基坑降水方案选择

基于绩效管理的岳阳JC公司员工培训策略研究

随着我国市场经济的不断发展,我国企业的竞争也日趋激烈。在新的形势下,企业的竞争从本质上看是人才的竞争。企业竞争中最重要的因素就是人才的竞争。因此,人力资源是企业最

学位

员工培训绩效管理培训设计培训管理

内部控制质量与审计定价相关性研究

审计定价是会计师事务所与其客户之间联结的纽带,是双方就审计服务的价格达成的一致意见。公正合理的审计定价一方面能够保证会计师事务所的健康发展,另一方面能够保证企业披

学位

内部控制质量审计定价相关性

热轧宽带钢CVC连轧机组辊型配置研究与应用

板形不仅是热连轧产品质量的核心内容之一,也是反映轧制稳定性的一项重要标志。因此,国内外投入了大量的人力、物力对此研究,并取得了大量成果。但是如何保证在最长计划公里

学位

热轧宽带钢CVC平直度凸度原始辊型板形控制断面形状

低温烧结低损耗微波介电陶瓷研究

随着现代移动通信设备向着小型化、高频化、集成化及低成本化方向的发展,对以微波介质陶瓷为基础的微波元器件提出了更高的要求。基于低温共烧陶瓷技术(Low temperature co-f

学位

CLNZ陶瓷低温共烧掺杂烧结性能微波介电性能

基于邻域互信息的特征基因选择方法研究

与本文相关的学术论文