一种基于互信息最大化的模型无关基因选择方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:qiqi251305430
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模基因芯片高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于互信息最大化方法(MMI)和与遗传算法的模型无关的基因选择方法来将特征选择转化为全局优化问题,其中的适应度函数定义为类间距离与类内距离之比,适应程度高.为了评价算法的性能,采用3个数据集进行了实验,结果表明MMIGA-Selection取得了较好的效果,在每个数据集上获得了较高的5折交叉验证正确率.MMIGA-Selection主要有两个优点:一是可以有效减少冗余基因;二是模型无关性,选择得出的特征子集可直
其他文献
一、引言 2000年7月,广州地区九所院校合并组成新广州大学。档案室顺应新形势,坚持以业务建设为核心,以提高档案利用率为目的,强化服务意识,制订了《广州大学档案工作规范》,健全与
测绘学是一门古老而新生的科学,其形成和发展极大地依赖于测绘技术方法和仪器设备的变革.随着知识经济时代的到来,空间技术和信息技术的飞速发展对测绘学科的发展产生了一系
针对目前稀疏表示字典学习的惩罚函数版本不一且各有优势的问题,提出基于子编码和全编码联合惩罚的稀疏表示字典学习方法,该方法在字典学习的目标函数中同时加入子编码惩罚函数和全编码惩罚函数。子编码惩罚函数使得学习后的字典在稀疏表示识别时可以用子字典的重构误差和子字典上编码系数的大小来识别,全编码惩罚函数则能直接利用整个字典上的编码系数来识别,通过联合这两个惩罚函数可以获得非常好的识别效果。为了验证所提方法
人类已进入信息社会.档案编研作为社会信息资源的组成部分,是档案信息开发利用的重要手段.档案编研如何实现自身意识或观念的转变、更新,能否适应市场经济形势发展的需要,对
进程代数是并发理论研究的主流方向,是分析和描述并发与分布式系统的重要工具之一。模拟是进程代数中刻画精化关系的核心概念。共变-逆变模拟派生于通常的模拟关系,它区分动
世界档案法制化进程的历史表明,法制化不仅是静态的理论和制度,更是动态的发展过程.在档案法制化的运动中,有其自身演进的动力体系.准确把握并努力创造这一体系,对卓有成效地
我国档案信息化建设从上世纪80年代计算机辅助管理开始,经过20多年发展,特别是近年来的跨越式建设,可谓成绩斐然。但档案信息化建设成果的应用不足,已成为制约档案信息化建设与发
图像在采集、存储和传输过程中不可避免地受到噪声攻击。鉴于无噪声图像对象形成的物理机理,在灰度图像中不同对象总是通过子块结构及其空间分布特性表征出来。子块结构具有某种规律或周期的像素变化,而噪声的分布表现出随机特性。为了在抑制噪声的同时保护对象结构,文中提出基于结构信息的鲁棒主成分分析(RPCA)图像去噪方法。该方法从高质量的图像集中提取结构信息样本,建立结构信息基元库,对不同结构信息基元集分别进行
随着微博的迅速兴起,提取信息传播特征和构建传播模型已成为研究热点.针对用户转发行为,首先分析信息转发结构,提取信息老化特征;然后结合转发时效性,基于平均转发概率的递减
结合小波系数的特点,采用了改进的均匀量化器——带截止区的均匀量化器(USDZQ)对变换后的小波系数进行量化。量化器的参数选取直接影响到ECG数据压缩的质量和压缩比,因此重点研究