基于肿瘤基因表达数据的特征选择算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:apple90317
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症作为全球第二大疾病,其发病和死亡例数逐年上升,威胁着人类的健康和生命安全,研究癌症的致病基因和不同亚型是有效防控癌症的重要措施。DNA微阵列技术的出现使研究人员能够同时分析数千个基因的表达水平。微阵列数据分析最重要的应用之一是癌症分类,但并不是所有的基因都与癌症的发生有关,大量的基因对于临床诊断是无关或冗余的,因此,若将所有的基因都用于基因表达数据的聚类或分类,可能会影响结果的准确率。微阵列基因表达数据分析的过程是找到信息丰富的基因并去除冗余和无关基因,但微阵列基因表达数据存在维数灾难、样本稀疏的问题,而且许多数据挖掘技术在处理高维数据时还会遇到计算复杂的问题,克服这些困难的方法之一是特征选择。本文针对传统的特征选择算法存在的一些问题,进行了以下研究。(1)传统的特征选择算法会忽略不同特征之间可能的相关性,并且没有很好地保留高维数据的局部流形信息和全局结构信息。针对这个问题,本文提出了基于评分函数的图正则低秩表示特征选择算法,在该方法中采用互信息来考虑特征的成对相关性;采用带图正则化的低秩表示方法来保留高维数据的流形信息和结构信息;采用评分函数评价特征的优劣,并选出特征子集用于聚类。最后分别在UCI数据集和基因表达数据集上进行了实验验证,并与现有的特征选择算法进行对比,通过准确率、归一化互信息值、收敛性来评价算法,实验结果表明,该方法所选特征子集表现较好,平均最高准确率和归一化互信息值可以达到86.7%,45.5%。(2)进化算法具有较强的搜索能力,可以在搜索空间中寻找最优的特征子集,其中粒子群优化算法因规则简单、容易实现被广泛应用,但它也有一定缺陷,比如容易停滞、陷入局部最优等。在特征选择的过程中需要优化多个目标函数,但使用传统的单峰多目标优化算法只能提供有限数量的帕累托最优解,导致可能会遗漏一些重要的特征子集。针对上述问题,本文提出了结合星形和环形拓扑粒子群的多模态多目标优化算法,在该算法中结合星形和环形拓扑结构可以兼顾粒子群在全局和局部的搜索,避免算法过早陷入局部最优;采用多模态多目标优化可以选出多个特征子集供决策者选择,并用所选出的特征子集进行分类。最后分别在UCI数据集和基因表达数据集上进行验证。实验结果表明,在多模态多目标环境下,结合了两种拓扑结构的粒子群算法比简单粒子群算法能找到更多的特征子集,且在不同数据集上都具有竞争性的分类结果。本文提出了两种改进的特征选择算法,并且首先在UCI数据集上验证本文所提方法的合理性、有效性,然后应用于肿瘤基因表达数据集,表现出了这两种算法在处理高维数据集时的优点。
其他文献
近几年,我国在电气化铁路建设方面成果显著,铁路里程数已处于世界领先地位。绝缘子是铁路运输电网中的关键部件,但绝缘子常年裸露在户外环境中,其表面容易积攒灰尘等杂质,潮湿天气下会形成导电性溶液,导致绝缘子局部放电,热故障频发,严重影响列车的行驶安全。现阶段绝缘子巡检仍以人工为主,但该方法已不能满足维护我国铁路发展的需要,因此如何实现自动化巡检具有重要的现实意义。本文主要研究如下:(1)为了获取图像中绝
学位
据世界卫生组织称,新型冠状病毒大流行正使世界各地的卫生医疗系统面临前所未有的压力。目前诊断COVID-19的金标准是进行RT-PCR检测,但由于该方法具有采样方式受限、假阴性率高、资源紧缺等问题,胸部CT检测已成为临床辅助诊断COVID-19的有效方法。然而,随着疑似病例的增加,单纯依靠放射科医生手工分割大量的CT影像面临严峻挑战,迫切需要研究出对COVID-19感染进行自动分类的方法。随着计算机
学位
近代医疗技术的快速发展,计算机技术、数据存储技术和数据挖掘技术的突飞猛进,致使人类目前对疾病的诊断与治疗的境况也有了极大的改善。癌症肿瘤一直是人类生命杀手之一,但人类对于癌症的发现与诊断还是存在手段单一的问题,并且由于癌症的发生是源于自身细胞的遗传物质变异导致细胞无限增值,造成癌症不易被诊断;其次癌症数据的处理也是目前的一大难题,癌症数据样本少,且真假样例分布极不平衡,同时样本又具有超高维数的特点
学位
研究目的:三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)是一种治疗方式有限、预后差的乳腺恶性肿瘤,本研究旨在探寻对TNBC致病及预后相关的潜在生物标志物、构建相关预后模型,并通过q RT-PCR验证预后模型中基因的m RNA水平。研究方法:从TCGA和GEO数据库分别下载乳腺癌(TCGA-BRCA)m RNA基因表达谱数据及临床数据和GSE76275芯片数据,
学位
随着课程改革的不断深入,学生对于数学知识的学习能力内涵也实现了相应的丰富,尤其是几何直观的能力,逐渐被人们所广泛认同.由此,本文以《圆与扇形》为例,谈初中数学实验教学中学生几何直观能力的培养策略.
期刊
背景:目前肺癌在中国乃至全球范围内仍然是最常见的恶性肿瘤,并且其发病率和死亡率居高不下,给公共卫生造成了重大的癌症负担。而又在肺癌中最常见的病理组织学亚型是肺腺癌,因其起病隐匿,早期临床表现不典型,大多数患者发现时已处于晚期,早诊早治可以在很大程度上提高肺腺癌患者的存活率。近年来,大多数研究表明冷诱导RNA结合蛋白(Cold-inducible RNA-binding proteins,CIRBP
学位
随着我国高速铁路运营里程的持续增长,高速铁路的运营安全备受关注。由于高速铁路运行速度快,一旦有人员或其他异物侵入铁路线路,将对铁路列车的运行安全构成巨大威胁,因此,对铁路进行实时的监测,通过目标检测算法判断是否发生铁路异物侵限,能够排除安全隐患,降低危险事故的发生率,保障列车的运行安全。近年来,随着铁路沿线监控设施不断增多,视频监控技术飞速发展,基于计算机视觉技术与铁路场景下监控图像相结合,实现了
学位
研究背景骨肉瘤(OS)是一种成骨干细胞癌,是儿童癌症相关死亡的主要原因之一。A型肉毒毒素(BoNT/A)是目前临床应用范围最广泛的药物之一,主要被应用于治疗肌张力障碍性疾病。随着对BoNT/A的研究逐渐深入,研究发现BoNT/A对某些种系的胃癌、前列腺癌细胞具有抗肿瘤作用,BoNT/A可通过调控肿瘤细胞凋亡、增殖和迁移能力进而发挥对肿瘤细胞的抑制作用。但BoNT/A对骨肉瘤是否具有抗肿瘤作用以及具
学位
随着互联网的快速发展,网络数据和信息资源日益增加,产生了大量杂乱无章的文本数据,如何从大量文本中快速、高效地获取相关主题下的有用信息成为网络舆情的一项重要任务,文本聚类成为实现这一目标的重要方法之一。文本聚类是文本挖掘领域的重要分支,在信息化检索、个性化推荐、文本组织等领域都有所应用。在对文本进行聚类之前,需要选取某一文本表示模型将原始的文本数据转化为计算机所能识别的信息,但在转化的过程中,存在文
学位
背景:食管癌(EC)居全球癌症相关死亡原因的第六位,每年近51万人死于EC。在中国,EC的发病率和死亡率分别居第六和第五位,其中90%以上是食管鳞癌(ESCC)。近年来EC治疗方法不断优化突破,但患者总体生存获益仍不能令人满意。目前,新辅助放化疗(n CRT)结合食管癌根治术被推荐为可切除食管鳞癌的标准新辅助治疗方法。然而,手术治疗后仍有近一半的患者出现肿瘤复发,并且以远处转移最为常见,而n CR
学位