基于高通量数据的增强子及其作用位点预测方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于多细胞真核生物来说,细胞的特异性功能是十分重要的。这就要求在相同遗传物质的基础上,细胞能够通过不同的基因表达模式来适应环境的变化。基因表达调控的因素有很多,近年来随着对基因组非编码区的研究,发现了一些非编码的DNA序列对于基因表达调控具有重要意义。增强子是对基因表达调控具有重要作用的非编码序列元件之一。一些增强子能够通过转录产生具有调控功能的RNA,也被称为增强子RNA(enhancerRNA,简称eRNA)。因此对于增强子的序列特征、作用位点以及在特定时间和特定组织中表达模式的研究成为了基因表达调控领域的一个重要问题。然而由于增强子的调控模式会受到时空特异性等因素的影响,因此对于组织特异性增强子的研究,尤其是与疾病相关的研究一直是近年来增强子相关研究的重点问题。随着高通量测序技术的发展,生物学数据实现了爆发式的增长,同时也使得通过计算学方法应用这些数据大规模分析增强子的功能成为可能。而已有的生物信息学研究对于现有的数据利用不足或者无法满足预测精度的需求。针对现有的增强子预测及分析方法中存在的问题,本文首先对增强子进行了生物特征分析,在此基础上提出了增强子的预测方法。进一步地,通过对全基因组SNPs数据进行分析,提出了基于SNPs数据的肝癌相关增强子的预测方法。最后,提出了基于随机森林的增强子作用位点预测方法。本文的主要内容包括以下四个部分:(1)使用生物特征来预测增强子一直是一个热点问题,已有的生物信息学方法只应用了一种或几种特征来预测增强子,忽视了其它特征对于表征增强子的作用。本文则充分考虑与增强子相关的多种生物特征,包括:序列特征,转录特征和表观遗传特征。通过对每种特征进行量化处理来分析不同特征在增强子预测中的重要程度。最后说明了分析结果的合理性。(2)已有的研究对于预测增强子的方法主要集中在实验手段和分析表达量差异的方式,这种方法难以实现高通量的预测或者预测精度较低。本文从与增强子相关的生物特征出发,基于后验概率贝叶斯分类模型对增强子进行预测。通过人类肝癌和正常组织中的表达数据,本文预测了人类基因组上与肝癌相关的增强子lncRNA。与其它预测增强子的方法相比,该模型具有更高的预测准确度。(3)与增强子相关的单核苷酸多态性(Single Nucleotide Polymorphism,简称SNP)等遗传突变在疾病的产生和发展过程中起了重要作用。这些遗传突变通过影响转录因子与增强子的结合程度对增强子的功能进行调控。因此可以应用SNPs数据对疾病相关的增强子进行预测。本文通过量化不同SNPs与增强子内部转录因子结合位点序列的结合程度,转化为SNPs对于增强子转录调控功能强弱的度量,构建与疾病相关增强子的预测模型。通过人类肝癌组织数据,本文对该模型进行了测试,验证了结果的合理性。(4)增强子对基因表达起调控作用主要体现在其与基因启动子区的相互作用上,因此有效的预测增强子与启动子的关联关系对于分析增强子的功能是十分重要的。目前应用计算学方法对增强子调控位点的预测正确率有限。因此,本文提出基于随机森林方法综合使用增强子区、启动子区和增强子与启动子间基因组区域的多种生物特征来预测增强子与启动子的关联关系。通过与其他预测方法相比,该模型具有更高的预测精度。
其他文献
KDP晶体主要应用在惯性约束激光核聚变和固体激光器系统中,但KDP晶体具有脆性低、易潮解、各向异性和对温度敏感等特点,是世界上公认的典型难加工材料。目前主要使用单点金刚
情感理解作为人机交互的基础,在服务机器人领域吸引了越来越广泛的关注。面部表情识别作为情感理解最直接的方式之一,目前仍然存在两个尚未解决的难题:其一,在大量样本训练下
在市场经济高速发展的背景下,人力资源的竞争显得尤为重要,引起越来越多企业的关注与重视。企业员工良好的工匠精神是企业内生发展的源泉,敬业度影响企业员工的工匠意识,成为企业评定员工工作行为与工作态度的重要标志。如何帮助企业在现有不断变化的市场中把握未来的发展方向,为企业建立一个具有高敬业的的人才队伍,是现有多数企业所面临的巨大问题和挑战,尤其是一些老旧国有制造生产企业的员工,面对经济下行所带来的企业效
太赫兹成像技术作为新兴的成像技术,在安全检测、无损检测、生物医学领域有着重要的应用研究价值和技术发展前景。由于X射线电子能量较高,容易对被检测物质产生电离性伤害,因
随着互联网急剧发展,大量非结构文本数据日益增多,如何结构化这些文本数据成为一个亟待解决的问题,而自然语言处理任务的研究对象正是这些非结构化的数据。其中关系抽取是自
县级融媒体中心建设顺应当前媒介融合发展趋势,对国家现代化治理、新型传播体系建构,主流意识形态引导具有重要意义。目前,县级融媒体已经成为中国主流媒体架构中的重要组成
随着互联网技术的迅速发展和数据量的激增,能够有效解决信息过载现象的推荐系统应运而生。协同过滤推荐算法是推荐系统中应用最广泛、发展最快的一种算法。由于只利用了用户和项目的交互信息,它的发展受到了数据稀疏性和冷启动问题的严重影响,这导致算法的准确率受到了限制。研究表明,引入辅助信息可以有效缓解协同过滤算法的冷启动、数据稀疏问题,但浅层模型具有特征提取效果不佳的缺点。近年来,将深度学习模型应用于推荐系统
板球系统作为一个多变量、强耦合的复杂非线性系统,对它的研究成果可以推广到诸如工业机器人与卫星定位等实际非线性系统中,因此板球系统的跟踪控制问题一直受到广大学者的关
在实际工程问题中,由于输入输出甚至系统本身的状态受到很多不确定因素的干扰,大多数的系统状态并不能直接由确定性常微分方程描述。因此,我们引入随机微分方程来描述带有随
文化是城市的"灵魂",是城市发展的支点。音乐节是城市文化发展的必然产物,是城市的文化标志。音乐节对于提升城市文化"魅力值",促进城市文化产业发展,提升城市文化软实力,提