基于相容粗糙集的基因微阵列数据分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xiaokun787
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是一种分析不精确、不一致、不完备数据的有效工具。然而,等价关系约束下的经典粗糙集模型只能应对离散化形式的数据,具有很大的局限性。基于相容关系知识表示的粗糙集模型,可以方便地处理数值类型数据。面对高通量时代基因微阵列数据的处理需求,迫切需要一种可有效地解决高维度、小样本数据的分类方法。利用粗糙集理论对基因微阵列数据进行分类研究已经成为生物信息学领域的又一研究热点。从近似获取方式的不同和邻域获取方式的不同两个角度构建粗糙集模型,提出一种基于向前删除策略的属性约简算法解决基因选择问题。基于集合的方式定义概念的近似,利用相交邻域定义对象的邻域,而非采用传统方法中基于点的近似和距离邻域的获取方式。这使得对确定概念的近似更加准确,并且对象间在每一维都有很大的相似性。在8个数据集上的实验结果表明,针对不同的数据集应该选择不同的粗糙集模型来构建知识,基于集合近似及相交邻域构建的粗糙集模型可适应大多数基因微阵列数据的基因选择。通过查阅已有基因注解和统计对比进一步说明了本文方法的有效性。利用基于规则的分类器实现基因微阵列数据的分类。首先,采用等频率区间法针对上文基因选择后的数据进行离散化。然后,定义知识粒概念,通过值域相邻区间的对象合并策略构建粒的中心集和邻域集,改变以往仅仅基于中心集或邻域集约束的规则提取模式。最后,利用本文给出的规则归纳算法提取规则并构建分类器。实验结果表明,提出的基于双重验证的规则归纳算法,不仅可以提取出错误率低的规则集,而且使得构建的分类器具有更高的准确率。总之,本文成功地利用基于相容关系的粗糙集模型及相关算法解决了基因微阵列数据的分类问题。在动、植物和模拟数据上的实验分析表明,无论是从选择的基因质量还是构建的分类器分类能力来看,效果都得到了一定的提高。
其他文献
分类是数据挖掘和机器学习领域中的重要技术,已有分类算法大多通过重复计算数据集来提高分类准确率,然而这是以降低计算效率为代价的。为了在提高分类准确率的同时降低计算代价
数字浮水印的出现使原创图像、音视频等信息的保护更加便捷。基于人类视觉系统(HVS)的浮水印既能满足浮水印强健度的需求,又能保证优秀的图像质量,因此被广泛应用。恰可察觉失
随着网络通信量的急剧增长,传统IP网络的传输方式已经不能满足通信要求。为了解决IP网中的问题,提出了下一代通信网络技术。向量网结合现有网络技术和下一代网络通信技术提出
快速计票系统作为一种将纸质评选票与数字图像处理技术完美结合的新型计票方案,可以有效解决传统人工计票方式正确率低、时效性差等问题。然而,基于传统软件开发方式的快速计
随着社交平台和移动互联网的普及,微博逐渐成为人们分享和获取信息的主流平台之一。特别是近年来国内外重大事件,大量一手资讯都先出现在微博网络。微博网络内信息能够快速传播
无线通信和移动数据库的快速发展,使得移动用户在任何时间、地点查询任意信息的设想成为可能,同时也促进了基于位置服务的应用发展。尽管基于位置的服务和定位技术为移动用户提
随着大数据时代的到来,图作为表示数据之间关系的基本结构,由于其处理复杂对象之间关系的表达能力,在社交网络、软件工程、生物数据等领域有着广泛应用。查询及分析图结构数据变
术语是有效描述领域知识的基本语言单元,通常由词或词组组成。在文本中自动获取特定领域术语的过程称之为术语抽取。它是信息处理领域的一项重要技术,在自然语言处理、文本挖
粗糙集理论是处理不确定性问题的新的数学工具,是粒计算的一个重要的研究分支。在粗糙集理论研究中,对属性重要性、属性核以及属性约简的求解是粗糙集理论研究中的几个主要的
变型设计应用相似性、重用性和全局性原理对定制产品进行重组,提高已有零件使用率,增加客户选择范围。根据客户定制需求,以批量生产的方式,低价、高质、高效的生产出定制产品