基于TCGA和PubMed数据库的高维生物医学数据的数据挖掘和特征选择研究

来源 :中国人民解放军军事医学科学院 | 被引量 : 0次 | 上传用户:itlixw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生命科学领域技术的飞速发展,尤其是测序技术的发展,使得生物医学数据呈现出急剧膨胀的态势。生物医学数据不但数据量巨大,而且具有高维度的特点,特征数量远大于观测量(样本量)的情况非常普遍。因此,这些数据的出现不仅为研究人员带来了新的机遇,更带来了新的挑战。如何挖掘出海量数据的关系链成为了研究工作的重点所在。特征选择指的是从原始数据中选择出一个子集代表原始数据的特征,精心设计的特征选择方法使得这些特征能够用于后续的数据挖掘工作。毫不夸张地说,特征选择之于数据挖掘便如同黄沙取金,几乎任何一个完整的数据挖掘工作都避不开这个步骤。所以,本文以特征选择技术作为突破点,以两个重要生物医学问题作为载体,对高维生物医学数据相关的生物信息学研究方法进行了探索。通过本研究,我们将从多个层面提出不同的特征提取策略,并进一步研究这些策略在实际生物医学问题中的表征效果与预测能力。本文中发展的特征选择方法和结果能够为高维生物医学数据的处理与分析提供重要参考。特征选择主要出现在机器学习和统计学领域,指的是从大量变量中筛选出密切相关变量用于模型构建。特征选择有三个主要优势:简化模型使之更加易于理解、缩短模型训练时间以及通过减少过拟合来增加模型泛化能力。在实际的研究问题中,变量集合中的大部分变量相对研究问题是属于冗余信息,删除它们并不会导致信息量的丢失。所以,对于处理海量高维生物医学数据,特征选择便是不可缺少的一步。正如14世纪的哲学家Willian所提出的“奥卡姆剃刀”定律:如无必要,勿增实体。可以说,特征筛选,简化模型乃是海量数据处理的灵魂所在。因此,特征选择对于海量生物医学数据的处理是极为关键的一步,也是本文的出发点所在。目前来说,特征选择主要有两类方法,一类是利用数据本身的拓扑结构、统计学信号进行筛选,而另一类则是引入外部知识,例如一些特定领域的背景知识。本文使用TCGA (The Cancer Genome Atlas)数据库中的数据综合尝试了这两种方法,用于预测肿瘤预后表现的研究。首先,在利用数据本身拓扑结构方面,我们重点关注肝细胞癌的基因和微小RNA诊断标志物的筛选和发现。在一个网络中,度相对较高的节点称为“集线器(Hub)”,我们在结合生存分析技术并研究预后生存率相关分子的拓扑特性后发现,这些Hub节点中与肝癌预后生存相关的基因更为富集,表明复杂分子网络中的这些Hub节点更倾向作为判断肝癌预后表现的潜在特征,即分子标志物。其次,在引入领域内知识方面,我们重点关注多种肿瘤化疗干预后药物反应的预测。肿瘤化疗失败的主要原因常常是由于机体内发生肿瘤多药耐受(Multiple Drug Resistance, MDR)。耐药性是一个相对复杂的过程,通常是由于过度表达耐药基因编码的相关蛋白,通过能量依赖性洗脱泵的作用将化疗药物泵出胞外,从而减弱化疗药物在细胞内的聚集作用,导致了机体的耐药发生。为此,我们以基因突变为暴露因素,肿瘤耐药为暴露结果,利用相对风险率(Relative Risk, RR)和统计显著性P-value联合筛选,得到八种肿瘤的耐药相关的突变基因作为预后预测模型的特征集。利用该特征集,我们分别使用三种机器学习方法对八类肿瘤样本的耐药性进行预测,表现良好。尤其是在头颈鳞癌(Head and Neck Squamous Cell Carcinoma,HNSC)中 ROC 曲线下面积(Area Under the Curve,AUC)能够达到0.980,表明能够经过领域内知识进行特征筛选后的模型可以很好地区分药物干预以后发生耐药的患者和药物敏感的患者,为帮助患者选择合适的治疗方式提供重要参考。除药物干预之外,越来越多的研究表明,通过饮食干预也是调节人体健康的重要手段,因此,除研究肿瘤治疗预后之外,我们还尝试基于PubMed数据库的海量文本数据对潜在的对人体健康有益的碳水化合物(又称为益生元)进行预测。我们从PubMed数据库中下载15例已知益生元的所有研究文献,并对其进行特征抽取,用该特征集对待预测碳水化合物进行建模分析,计算出潜在的益生元名称列表,这个挖掘方法不仅能够为其他数据挖掘学者提供参考,预测出的潜在益生元亦可为研究益生元的学者们提供一个重要参考清单。随着生物医学领域大数据大幕的拉开,数据挖掘显得愈发重要。数据挖掘方法有助于从系统水平理解生命,是研究生命科学的重要方法,特征选择则是数据挖掘的灵魂。在此基础上,我们将在以后的研究中考虑整合文本数据、生物表达数据进行模拟和分析,为最终改善人类的健康做一些有意义的尝试。
其他文献
目的探讨痰热壅肺型急性支气管炎患者采用清肺豁痰汤治疗效果及对炎症因子的影响。方法随机数字表法将2018年3月—2019年3月期间本院接诊的97例急性支气管炎患者进行分组,对
道德教育的形式多种多样,基于音乐、美术、舞蹈等艺术形式促进道德教育是一种有效手段。音乐教学的基本目标在于提升人的审美功能,促进人的三观养成。良好的道德教育可以让学
目的探讨脾肾两虚型慢性肾小球肾炎患者采用自拟补脾益肾逐水方治疗对肾纤维化程度及炎症因子水平的影响。方法纳入2018年4月~2019年4月期间本院接诊的93例慢性肾小球肾炎患
目的探讨鼻腔结构正常化手术治疗鼻腔结构异常的变应性鼻炎的临床意义。方法对68例伴有鼻腔结构异常的变应性鼻炎患者进行鼻腔结构正常化手术,参照我国兰州标准(2004年)对术
高升油田1977年投入开发,目前已进入开发中后期,油区低产、间开井数多,常规玻璃管量油计量方式准确性差、计量时间长,难以满足生产需要,为此,利用油井示功图供液幅度与产液量
目的从穿心莲中克隆穿心莲内酯合成途径中的香叶基香叶基焦磷酸合成酶(geranylgeranyl diphosphate synthase,GGPS)基因,并进行组织表达等特征研究。方法采用CTAB-LiC1法从穿
初中合唱训练中对学生审美情趣的培训,有助于提升学生音乐素养和综合素质。本文通过对初中合唱训练培养学生审美情趣的重要性和在合唱训练中培养学生审美情趣的策略展开分析,
毛远新是毛泽东的弟弟毛泽民的儿子。由于毛泽民是在新疆牺牲的,当 1975年9月,新疆维吾尔自治区举办庆祝建区20周年的活动时,特意邀请已任辽宁省委书记、省革命委员会副主任
南京市人民政府令第307号《南京市城市建筑物、公共设施、道路容貌管理规定》已经2014年7月23日市政府第39次常务会议审议通过,现予发布,自2014年9月1日起施行。市长:缪瑞林
综观近年来全国中考数学题型,不难发现:纯数学的命题越来越简单化、少量化,而应用数学所占的比重越来越大.可以说:“培养创新意识,注重实际应用,着眼考查能力”已经成为中考数学试题