基于深度学习的超级增强子与启动子关系预测的研究与实现

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:jiangguoliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核细胞中,基因的调控以及精准表达对于生物的生命活动起着十分关键的作用。而研究增强子与启动子相互作用(Enhancer-Promoter Interactions,EPIs)的关系有助于人们理解基因调控关系,进而揭示与疾病相关的基因,为疾病诊疗提供新思路和新方法。传统的生物检测方法的实验成本高、耗时长,且受分辨率的限制,难以精确鉴定单个EPIs。通过计算方法来解决生物问题已成为近年来的研究热点,近些年来也有一些人做了使用深度学习算法做了EPIs预测的尝试并取得较好的效果,此类方法是通过复杂的网络结构主动学习序列特征和空间结构,进而准确预测EPIs。超级增强子是一种特殊类型的增强子,它是由具有同等活性的增强子共同组成的增强子簇,通过转录因子共同作用于靶开关的启动子。所以超级加强子和启动子之间的相互作用(Super Enhancer-Promoter Interactions,SEPIs)具有和普通增强子和启动子相似的空间结构以及生物学特性。因此,本文将使用普通增强子与启动子的构造方式构造SEPIs数据集并利用近期在EPIs预测中较为热门的深度学习方法对SEPIs预测进行实验尝试验证。创新点如下:1.本文使用了染色质特征对六个细胞系中的SEPIs的数据构建,该方法构建的数据集相较于传统的通过近端基因连接所构建数据集的方法在特定细胞系能够表达更准确的活性。2.提出了数据增强的方法,将构建的阴性集约为阳性集的20倍的不平衡的SEPIs数据集进行数据增强,使得阳性集数据扩大20倍从而得到一个平衡的数据集。并将该数据集进行训练测试,从而更加严谨的验证了深度学习算法在SEPIs中的应用可行性。3.目前人们普遍只能通过使用高通量实验检测方法来进行SEPIs的检测,然而该技术在成本和耗时中仍然存在着一定局限性,,深度学习算法可以将具有一定潜在特征联系却难以仅凭肉眼找到其中联系的领域的识别,本文将使新兴的计算机领域深度学习的方法对SEPIs进行预测,将超级增强子和启动子的数据序列信息送入三层卷积层进行特征提取并将特征融合并通过Sigmord函数对数据进行预测。本文所提出的深度学习算法,使用普通的卷积层以及DNA序列信息便可以实现染色质关系的预测,在不平衡的数据集合上实验结果的评价指标AUROC、AUPR值分别在0.92-0.95以及0.91-0.94之间的不错效果,但是由于SEPIs的数据量较小已经高度不平衡的情况故可能在训练中存在模型侧重学习阴性集的效果;虽然将数据做了数据平衡的数据增强处理后各项评价指标却为达到0.6但是仍然可以证明在SEPIs预测问题上,深度学习是可以学习到序列信息的特征值;同时我们发现,当使用更多的数据即所有细胞系的数据做训练时所得到的结果会有0.001左右的提升,说明更多的数据能够使模型训练的更好。
其他文献
核能利用是一把“双刃剑”。一方面,核能作为一种清洁、高效、经济、低碳的能源,近年来受到国内外广泛关注,被积极开发和利用;另一方面,核能利用过程中会产生放射性废物,若对其处理·处置不当将会造成极大危害。纵观世界,拥有众多核电站的日本高度重视放射性废物的处理·处置等核安全问题。这些举措在核能利用快速发展的今天,对我国来说具有积极的借鉴意义。因此本次翻译实践活动以《2018年度核能白皮书》(『平成30年
本翻译实践报告选取了小岛芳孝的『環日本海地域の歴史に関する実践的教育(2009年)の概要報告』作为翻译对象。材料内容为“渤海日本道”的参观学习记录以及参加第二届“环日本海地区的历史”春季研讨会报告。通过翻译该报告,了解渤海时期遗址的发掘现状,助力考古工作。本翻译实践报告主要分为六个部分:第一部分为序言,主要介绍了该文本的内容以及翻译目的。第二部分为翻译任务描述,详细介绍了作者、选择该材料的意义及翻
社会心理学的研究视野日益广阔,其中,学者们对人际关系淡薄化问题的研究亦有所深入。人际关系淡薄化作为社会问题,正影响着人们生活的方方面面。纵观世界,跨文化交际日趋频繁,关于社会心理学的外语研究文化亦呈现出一片繁荣的景象。因此,在人际关系淡薄化日渐加剧的今天,研究学术型文本的相关文献,学习关于该问题的原因、影响、措施等,对我国来说具有一定的借鉴意义。本翻译实践报告以「人間関係の希薄さに関する研究のレビ
2020年新型冠状病毒肺炎(以下略称为“新冠肺炎”)的爆发,使人类生命安全和身体健康面临严重威胁,是对世界各国和地区的一次重大考验。日本政府为了保护国民的生命,根据《新型流感等对策特别措施法》设置政府对策本部,召开新型冠状病毒感染症对策本部会议,对当前感染状况变化等进行分析、评估后,发布新型冠状病毒感染症对策的基本应对方针。笔者选取2020年5月25日更改后的《新型冠状病毒感染症对策的基本应对方针
法治是人类社会进入现代文明的重要标志。有法可依是实行社会主义法治的基本要求之一。不断地完善法律法规能够更加有效地解决相应的社会问题。本翻译实践报告的文本选取了日本内阁府男女共同参划局官网上发布的《配偶者からの暴力の防止及び被害者の保護等に関する法律》全文。本实践报告共分为五章。第一章为序言,介绍了翻译实践的背景和翻译实践的目的及意义。日本反家暴相关法律历经多次修订,并在实践过程中颇有成效,有很多值
背景与目的:冠心病常伴有多种合并症,其中合并2型糖尿病的患者约占20%-30%。冠心病和2型糖尿病患者均可存在血脂代谢异常,当两种疾病相互作用时,血脂代谢紊乱更加严重。大量研究证实,LDL-C可促进动脉粥样硬化的发生发展,而HDL-C是动脉粥样硬化斑块形成的保护性成分。ApoA是HDL颗粒的重要组成成分,ApoB主要存在于LDL颗粒中。已有多项研究证明ApoA与冠状动脉狭窄的关系,但对冠心病的分类
当今世界文化交流日益频繁,对人类产生巨大影响。文学是语言文字的艺术,是文化的重要形式,体现人类对丰富精神世界的渴望。本实践报告选取阎连科教授在香港科技大学“文学关系—写作中的内脉线”的演讲。以此次口译实践为基础,发现口译主要问题,并提出相应对策。本次口译实践中主要探讨译语问题包括译语冗余,译语非流利,译语语篇衔接和连贯性问题,并针对这三个问题,提出解决策略。针对译语冗余问题,采用整合优化源语、译语
现代社会随着数据的急剧增多,逐渐进入到大数据时代,人们对数据深度知识的挖掘也不断增多。电影是人们必不可少的娱乐项目,对用户进行个性化的电影推荐也越来越重要。但是单模型推荐对推荐效果具有很强的局限性,根据环境的不同而采用统一的模型处理则会降低推荐效果,而且在数据飞快演变的快节奏中,对用户的实时推荐也变的尤为重要。因此,如果在尽可能短的时间内,根据用户的不同场景,对用户进行精准而实时的推荐是当前数据挖
近年来,固体氧化物燃料电池(SOFC)因其可将燃料化学能高效转换为电能而受到广泛关注。为了使SOFC技术在经济上比化石燃料发电技术更具竞争力,必须有效地降低材料制造成本并延长电池使用寿命,这就需要将SOFC工作温度从高温(800-1000°C)降低到中温范围(500-700°C),同时开发具有高电化学性能的阴极材料,其中BaFeO3-δ作为具有较高氧还原电催化活性的混合离子电子导体而成为研究热点,
近年来,有机发光二极管(OLEDs)因其具有电致发光效率高、超薄、柔性、宽视角、响应快、节能、可大面积制造等优点在平面显示和固态照明领域引起了人们广泛的关注。而磷光OLEDs由于可以利用所有的75%三线态激子和25%的单线态激子,实现近100%的内量子效率,成为高效OLEDs的重要研究方向。本论文系统的研究了主体和客体能级的关系对磷光OLEDs电致发光性能的影响,为高效磷光OLEDs的制备提供了依