融合自训练和低秩表示的基因表达数据癌症分类方法

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:hsb1588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学领域中,由于许多疾病的病理不明,使用传统的诊断方式无法准确判断疾病类型,所以借助分子生物学数据和机器学习进行辅助的诊断方式近年来开始得到关注。癌症是一种基因疾病,有超过100种类型,通常由它们所处的组织或器官来命名。对于癌症的诊断和治疗而言,准确识别癌症类型是十分必要的。由于癌症组织和正常组织有着不同的基因表达,基因表达数据可以作为有效的特征源用于癌症分类。由于高通量测序技术的发展,获得全基因组的基因表达数据成为可能。然而,直接使用原始的基因表达谱进行准确的癌症分类仍然很有挑战性,因为基因表达数据有着极高的特征维度和较小的样本数,且存在着大量的噪声和冗余。(1)为了解决上述问题,我们提出了一种新的融合低秩表示和自训练的半监督分类方法(SSC-LRR),它可以利用基因表达数据进行癌症分类。低秩表示(Low Rank Representation,LRR)首先被用于从高维基因表达数据中提取有判别力的特征,然后一种改进的半监督自训练分类(Semi-supervised Self-training Classification,SSC)方法被用于进行癌症分类预测。为了评估SSC-LRR的分类效果,我们在两个不同类型的基准数据集上进行测试,并与四种当前情况下性能最好的方法进行比较。它在癌症分类预测中取得了 89.7%的总体准确率和0.920的泛化相关性,比其它方法中最好的一个分别高出18.9%和24.4%。总而言之,我们的研究展示了一种新的高灵敏度方法,可以从大规模基因表达数据中识别癌症类型。(2)此外,我们在矩阵低秩表示的基础上对数据进行可视化,并提出了一种关键基因选择方法对基因的鉴别能力进行排序,一些基因(RNF-114,HLA-DRB5,USP9Y,PTPN20)被该方法识别为可能的新癌症标志,以用于进一步的临床研究。(3)为了方便其他生物医学研究者的使用,我们基于Flask框架开发了一个网络平台用于提供在线的癌症类别预测服务。
其他文献
人们对外表的追求使得满足这些需求的市场不断发展,其中包括定价合理的医疗、有机产品、外科手术和技术先进的产品。皮肤护理品牌Dermaozone属于最后一类,该品牌使用臭氧成分
目的:对比分析腹腔镜辅助和后矢状入路三期肛门直肠成形术,在治疗合并泌尿道瘘的男性先天性直肠肛门畸形中的疗效及并发症。方法:回顾性的分析了深圳市儿童医院从2012年1月年
新型药物释放系统已成为药学领域的重要发展方向,随之而来对药物载体及材料的研究也就愈加显得格外重要。理想的药物载体应具有很好的生物相容性、生物可降解性、理化及生物
目的:本文旨在对38例急性胆囊炎老年病人行经皮经肝胆囊穿刺引流术(percutaneous transhepatic gallbladder drainage PTGD)临床数据进行回顾性分析研究,并对其术前、术后变
《六度集經》,是三國時期吴國譯經高僧康僧會所編譯的一部漢文佛經,該經收録多種本生經及各種本生故事,具有文獻學、語言學、哲學等多方面的研究價值。本文鎖定《中華大藏經
本报告以尼日利亚女作家奇玛曼达·恩戈奇·阿迪契两部短篇小说《红眼病》和《过关》为例,探讨了在英汉翻译中词汇对等和句子对等的应用。小说《红眼病》讲述了主人公对童年
近年来,全球气候变暖已成为世界重大危机之一,温室气体减排也已成为国际重点关注问题。由于航运排放是温室气体排放的重要源头之一,所以,航运减排刻不容缓,这也给新时代下的
代谢重编程是肿瘤细胞的标志性特征之一,其代表性事件为Warburg效应,表现为即使在氧气充足的条件下,肿瘤细胞也要消耗大量葡萄糖进行糖酵解代谢,并产生大量的乳酸,为肿瘤细胞
秘鲁这一充满竞争的市场正在不断变化。在过去几年中,秘鲁经济持续增长,公司和家庭也在一起发展。在全球化的世界中,客户需求正在不断变化,不断增长,竞争也越来越激烈。客户
尼尔·西蒙(1927-)是当代美国最有名气的喜剧作家之一,被誉为“百老汇喜剧之王”。他出生于纽约的一个犹太家庭,60年代初开始涉足百老汇,贡献了诸多对美国剧坛产生了重要影响