基于分类技术的基因特征选取算法的研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lucky121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,以生物信息学(Bioinformatics)为背景的研究广泛开展,研究人员利用机器学习、数据挖掘等数据分析方法来发现大量数据所隐含的各种规律从而解决实际问题。基于基因检测和数据分析技术,通过对基因表达谱数据(Gene expression profile data)的研究分析,可以精确识别不同的癌症类型,给针对性的临床治疗提供方案和依据。随着人类基因组计划的进行,基因表达谱数据呈指数级增长,传统的数据分析和研究远远达不到生物信息学的要求。基因表达谱数据样本空间小、基因种类多的特性给现有的常规数据挖掘方式带来了巨大的障碍。基因特征选取通过去除大量不相关的和冗余的基因来寻找相关基因,是建立有效分类模型的基础,是解决高维小样本问题的有效手段。基于上面的分析,本论文首先分析和研究了基因表达谱数据和特征选取的概念,其次提出了基于分类技术的基因特征选取算法,最后进行了具体的测验和分析。为了提高算法的稳定性,首先建立了间隔空间,用来描述原始特征空间中样本之间的距离,并计算每个样本的权重,建立了样本权重模型。在加权样本数据的基础上,以改进信息度量作为评价准则衡量基因信息量的大小,建立未消噪和消噪的基因特征初步选取模型。然后在初步选取模型的基础上,用浮动顺序替换搜索算法得到不同大小的基因特征组合,结合SVM分类器对上述基因特征组合进行性能评估并得到信息基因集合。接下来为了进一步提高算法的性能,结合集成思想提出了改进的特征选取算法:首先将多种排序准则相结合,在一定程度上对不同排序准则各自的缺陷进行弥补,并有效提高分类的准确率。其次,加入部分具有确定性的先验基因,利用人工神经网络对模糊权值的优化来实现其确定先验基因与不确定基因信息之间的组合,建立具有自适应能力的选取模型。结合支持向量机、逻辑回归、神经网络和决策树4种分类器,将所提模型与经典特征选取模型进行比较分析。经过实验分析发现,本文所提选取模型在保证分类性能的前提下,具有较好的稳定性。
其他文献
目的观察利普刀治疗宫颈上皮内瘤变(CIN)的临床疗效。方法选择在我院妇科就诊诊断为CIN患者67例行利普刀手术,分析术前术后病理检查结果。结果手术顺利,无一例发生并发症,术后
太阳能无人机利用搭载的可见光相机、红外相机、合成孔径雷达等设备可方便快捷地执行侦察监视任务,然而多数太阳能无人机仅能在夏季实现持续飞行,难以在太阳辐射较弱的中高纬
图像语义分割任务因其广泛应用于自动驾驶、环境感知、人体解析等场景,成为了计算机视觉的热门研究方向之一,然而其只能分割出同类事物,无法将单个事物区分开来,图像实例分割
在单元素原子吸收法的基础上,使用瓦里安SpectrAA220FS原子吸收光谱仪,建立了底泥中部分金属元素的原子吸收多元素同时测定方法。应用本法测定了岷江成都段底泥中的部分金属元
本文研究的是关于基金经理个人特征对我国基金收益的影响分析。基金的有效收益都与基金经理的抉择和判断紧密联系。换而言之,基金经理这一角色应当是基金中最主要的参与者和
为了探讨日本荚蒾(Viburnum japonicum)幼苗对干旱胁迫的适应能力和对策,采用盆栽控水方法,设置正常供水(CK)、轻度干旱(LS)、中度干旱(MS)和重度干旱(SS)4个水分梯度,测定了
根据隧道模型的特征,对其参数化建模难点进行分析。借助Revit二次开发插件DYNAMO编制程序,实现隧道模型全过程的程序自动拼装。利用DYNAMO+REVIT,简单输入管片特征数据快速建
用偏光显微镜(PLM)、扭辫(TBA)、IR及WAXD对PEO/PBHE共混体系结晶形态进行了研究。结果表明,PEO含量在50%以上的共混体系,几乎完全被PEO球晶充满,非晶态PBHE作为微区分散在大
失独老人由于子女去世而承受重大打击,导致精神上和生活上都有问题。如何切实保障他们的生活需求得到满足,是社会保障领域乃至社会稳定发展的重要问题。本文通过对我国失独老
目的研究外科重症监护室(ICU)临床分离铜绿假单胞菌的耐药性及遗传相关性。方法收集本院于2007年3月至2008年3月的外科ICU住院病人非痰标本中的铜绿假单胞菌21株,采用琼脂2倍稀