基于逻辑回归的多数据融合鉴别致病基因

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zzhang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症亦称为恶性肿瘤,癌症的发生对人类健康产生了巨大的威胁。随着人类基因组计划的完成,寻找与癌症相关的致病基因成为理解癌症病发机理、癌症预防和诊治手段的基础,具有重大的社会和科学意义。因此,在生物医学领域中,人类致病基因的预测已成为研究热点。已有研究显示,生物网络中趋于邻近的基因易导致同种或相似疾病的发生。有效地利用多种生物网络间所隐含的生物信息,能够提高人类致病基因预测的准确性。与此同时,在鉴别与某种癌症相关致病基因问题中,由于已知基因较未知基因数目相差悬殊,使得致病基因的鉴别问题成为一个典型的不平衡分类问题,传统机器学习方法对于致病基因的鉴别效果并不理想。在此背景下,本论文以多种生物网络数据为基础,针对人类致病基因的鉴别问题进行了研究,取得了如下创新性成果:1.为了将多种生物网络信息进行有效地融合,本研究提出了一种基于逻辑回归的多源数据融合方法。给每个基因分配先验标签的过程中使用了蛋白质复合物数据信息,并通过对二值逻辑回归算法中特征向量的重新构造实现了多种数据源的有效融合,同时充分融入了基因与基因之间的连接信息。该方法提高了致病基因鉴别问题的预测精度,相关实验结果分析对比也进一步表明了该方法的有效性。2.针对数据的不平衡性,本研究提出了基于多步逻辑回归和随机重采样方法以鉴别人类致病基因。研究主要分为两大阶段。第一阶段是鉴别与癌症类相关的致病基因,通过将所有癌症相关基因融合在一起作为正样本,在一定程度上减少了正负样本的不平衡性。通过多步逻辑回归,在每一步中将负样本中结果最不好的部分基因剔除,以改善正负样本的平衡性,并不断优化结果。第二阶段是鉴别与某一具体癌症相关的致病基因,基于二值逻辑回归,加入了上采样和下采样的随机重采样方法,解决了由于当前癌症已知致病基因数量少而引起的正负样本不平衡问题,提高了预测的准确性。3.将本研究提出的方法与其它已有方法进行了对比实验,对五种癌症结果进行通路富集分析,并且对相关通路进行了生物意义上的解释。实验结果验证了本文提出的方法在致病基因鉴别问题上的精确性与有效性。综上,本研究针对人类致病基因鉴别问题中多源数据的融合和数据不平衡问题,提出了相应的方法,提高了致病基因鉴别的准确度。通过研究得到了人类多种癌症可能相关的致病基因,为癌症的预测、诊断和治疗提供了借鉴。
其他文献
随着“互联网+”时代的到来,网络直播综艺节目越来越火爆,电视节目的主战场正在往网络终端位移,同时产生了新问题.本研究探析网络直播综艺节目发展现状,总结产生的问题及问题
茅盾的《豹子头林冲》《石碣》与施蛰存的《石秀》,均取材于《水浒传》这部既具有启蒙烙印又兼具普罗文学色彩的中国古典名著。但由于文学旨趣和价值取向的不同,茅盾和施蛰存
在强调全面从严治党的新时代,党员管理和教育方面的焦点逐渐向优化党员结构和提高党员素质转化。党员退出机制作为促进中国共产党肌体新陈代谢的有效途径,对于党的建设具有重
本文通过对目前国内产科病房现有状况的研究,对病房环境的品质直接关系到医疗效果的好坏,对病房环境心理的研究有利于病房功能的进一步完善为论点。从孕妇、婴儿、护士、家属
利用"现代维吾尔语语音声学参数库",对维吾尔语清塞音[q]的单音节、双音节、三音节、多音节中男性(M2)和女性(F2)的无声间隙(GAP)、嗓音起始时间(VOT)、时长(CD)、音强(CA)、
目的:观察冠心病稳定型心绞痛牵涉痛分布区域与穴位的关系,并结合动物实验探讨局部敏化出现的规律。方法:临床研究部分,观察1 046例冠心病稳定型心绞痛患者外周压痛敏感部位
我国目前有20余个抽样标准,涉及产品/商品质量的抽样检验。适合监督抽样标准有5个,分别是GB/T28863-2012、GB/T6378.4-2008、GB/T2828.4-2008、GB/T2828.11-2008和GB/T16306-
<正>笔者曾经撰写过一篇有关中国史前社会中心与周边形成的文章,认为新石器时代晚期,由于生存形态的变化,农耕社会产生新的分化,形成农耕型社会和农牧交错型社会。随着地域差
初步核实,是指纪检监察机关对受理的纪检监察对象违纪违法线索进行初步核查证实的活动。初步核实的任务是了解所反映的主要问题是否存在,为立案与否提供依据。扎实有效的初步核
报纸
混合式小学教师培训模式致力于探索高效的小学教师培训方式、方法。在具体实施中要做到积极创设网络学习环境,完成线上线下培训一体化;完成分层分类培训,精准扶贫以及送教下