肿瘤基因组数据特征选择问题研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:tp137907226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人类对肿瘤的诊断和治疗已不再停留在表观阶段,人们渴望探索肿瘤产生和转移的根本基因学根源。随着芯片和高通量测序技术的广泛应用,在肿瘤研究领域积累了越来越多的基因组学数据,推动了精准医疗的发展。许多研究采用特征选择技术挖掘生物标志物(如信息基因)从而进一步分析癌症的病理,研发靶向药物。本文围绕肿瘤基因组数据的特征选择的主题,在现有的特征选择算法及研究的基础上,提出了若干针对肿瘤基因组数据的新的特征选择算法,策略及应用:(1)基于t检验和倍数分析的信息基因初选。对基因表达数据通过基于t检验(t-test)和倍数分析相结合的方法识别出差异表达基因,并改进了基因的选取条件。该初选方法首先设定t检验得到的p值及倍数变化的阈值,针对肿瘤基因组数据的特性及对差异表达基因的选择要求构建了距离公式。将满足阈值的基因通过距离公式进一步排序筛选,以获得固定的数目的拥有最高质量的差异表达基因。最后对四组基因表达数据进行信息基因初选,获得了若干上调及下调差异性表达基因。(2)基于遗传算法的信息基因精选。对于经过初选后信息基因数较多的数据集来说,还需要进行基因精选来获得较少的信息基因。本文中通过采用后验概率及线性分类器的经验误差率两者的线性组合作为适应度函数的遗传算法对信息基因进行精选,以实现信息基因子集的两类可分性最大化。并根据肿瘤基因组数据的特点对参数进行优化设置,从而获得一定数量的精选信息基因子集。(3)基于邻域粗糙集改进的启发式宽度优先搜索特征选择算法HBSA-NRS。针对启发式宽度优先搜索算法(HBSA)在特征选择中计算节点多且耗时的问题,提出了一种基于邻域粗糙集改进的启发式宽度优先搜索算法(HBSA-NRS)。根据HBSA-NRS,在扩展搜索树每层节点时按照邻域粗糙集理论计算所有候选特征的重要度并设定特征的重要度阈值,筛选出大于给定阈值的特征作为子节点进行扩展,并用SVM计算每层节点路径代表的特征子集的分类准确率作为启发式信息,倒序排列后选择前若干个节点作为下层的待扩展父节点,进一步降低了搜索树的节点数量。该算法大大减少了启发式宽度优先搜索计算量,降低了算法的运行时间。
其他文献
由于硬质合金刀具切削加工筒节材料时,在高温高压以及大切削参数的加工环境下,容易出现粘结破损问题。本文基于国家自然基金项目“重型切削中硬质合金刀具前刀面粘焊变质层损
随着能源需求越来愈大,煤炭开采规模也越来愈大,开挖深度越来越深。在我国煤炭开采过程中,有将近53%的矿区开采深度达到800米以上,而深部巷道70%布置在软弱煤层中。采取一定
社区警务发端于西方发达国家,自上世纪六七十年代诞生以来,便受到人们的高度重视并迅速传播。上世纪80年代被引入我国,我国公安机关在传承和发扬群众路线的基础上,对欧美国家的社区警务建设进行了积极借鉴和创新探索,形成了切合我国实际的社区警务战略。以“平安村镇”建设为平台,深入实施农村社区警务战略,形成社会治安一体化防控体系,从而促进农村社会治安稳定、有力预防打击犯罪、不断提升民众的安全感和幸福感。为深入
很多大规模科学或工程计算,如油气勘探、互联网服务以及气象预报等,通常采用并行程序实现。消息传递并行程序是一类重要的并行程序,通常包含一定数量的通信语句,用于进程之间
图像分割技术是图像处理与分析的基础工作,传统图像分割技术大多是以像素为基本单元进行。超像素技术是一种将具有相似颜色、纹理、亮度等特征的相邻像素形成一系列像素区域
在微服务架构中,微服务是一些粒度小而自治的服务。通常单一的微服务只能实现一个简单的功能,若满足企业级业务需求,需要将各个独立的微服务依据一定的逻辑和规则进行组合。C
随着科学技术的飞速发展,在科学研究和工程应用等众多领域中涌现出大量多目标优化问题,而在这些多目标优化问题中,存在一类问题具有以下特性:在决策空间具有多个最优解集,同
全球定位系统已被深度应用于航空、海事、国防等诸多领域。中国的北斗三号系统截至目前已发射了54颗北斗卫星,即将发射北斗三号系统的最后一刻地球静止轨道卫星,并实现北斗三
肺癌目前在全世界范围内被称为头号癌症,并且其发病率逐年上升,在我国的表现尤为显著。肺癌的初期表现症状以肺结节为代表,临床上肺结节检测是肺癌筛查的第一步,目前对于肺结
煤炭作为主要能源在我国国民经济发展中起着重要的作用,巷道作为煤矿井下生产的脉络在煤矿生产中占有重要的地位,随着煤矿开采深度的增加,煤炭赋存条件复杂,深部开采复合顶板