基于序列能量得分差值的核小体定位预测

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:kim5618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为真核生物染色质的基本结构单位,核小体特殊的包装形态使得DNA序列上的遗传信息与蛋白质携带的调控信息之间的接触产生了多种变化。基因组上核小体的精确定位以及它的组装方式,成为了转录调控机制及DNA的复制和修复等多种生物学过程中的重要影响因素,这些因素直接或间接地调控着基因表达的过程。随着高通量测序技术的飞速发展以及大数据时代的到来,建立准确性高且简洁有效的核小体定位预测算法成为生物信息学领域新的挑战。本文以酿酒酵母核小体定位数据库为主要研究对象,提出了新的预测算法并取得了良好的预测效果。在数据集的建立过程中,我们不仅提取了以往研究中所用到的两种酿酒酵母核小体定位数据库,还以核小体间Linker-DNA序列的平均长度为基准,提取了新的核小体序列作为正集构建了新的数据集。在对酿酒酵母核小体定位数据库的预测取得良好结果后,为了更客观地评估预测算法的性能,又将新的算法应用于人类、线虫和果蝇的核小体定位预测中,也得到了很好的预测效果。本文主要定义了以下三种打分方式:1.根据核小体DNA与Linker-DNA两种序列在各种位点的紧邻二核苷酸关联频率的不同,在建立位置关联概率矩阵的基础上构建了位置关联权重矩阵(PWM),使用数学方法统计了两类序列中紧邻二核苷酸的位置关联信息,定义了第一种打分函数;2.由于序列的总能量可以看做是沿着序列每一位点碱基能量的总和,根据核小体定位的序列偏好性,推测核小体DNA与Linker-DNA两种序列片段整体的总能量不同。我们引入了六种DNA局部结构柔性信息来分析紧邻二核苷酸在每个位点处的能量,将每种结构柔性信息分别与二核苷酸位置关联权重矩阵相乘后进行求和,定义了第二种打分函数;3.为了进一步探究紧邻二核苷酸相互作用能对核小体定位的影响,我们将六种结构柔性信息融合后,与紧邻二核苷酸位置关联权重矩阵结合构成第三种打分函数。六个数据集中的核小体DNA序列与Linker-DNA序列分别构成正集与负集,利用上述三种打分函数分别对数据集中的每一条序列打分,根据正负集中每条序列的打分差值对待测序列进行分类,分别对六个数据集中的核小体定位进行预测。使用10倍交叉验证的方法评估了三种打分方式的预测效果,结果显示,对酿酒酵母三个数据集的核小体定位预测成功率分别达到98.35%、99.61%和83.49%;对人类、线虫和果蝇数据集的核小体定位预测成功率也分别达到70.65%,87.02%和71.69%。此外,将我们的计算结果与最近取得较好结果的同类预测算法进行了比较,我们提出的算法对酿酒酵母核小体定位的预测成功率较前人的结果有了明显的提高。对于其他三种模式生物(H.sapiens、C.elegans和D.melanogaster)的核小体定位预测,我们将人类核小体定位预测的敏感性提高了11.96%;果蝇核小体定位预测的特异性提高了5.52%;线虫核小体定位预测的敏感性提高了11.96%,预测成功率提高了3.47%。结果显示我们构建的预测模型在各个评价指标上都具有一定的优势,且从序列的能量角度解释了核小体构成的序列偏好性及其空间结构的决定因素,揭示了更具有生物学意义的预测方向。
其他文献
伴随着配电网结构的不断复杂化,发生单相接地故障的几率越来越大,严重影响到配电网的运行安全,及时找到故障位置发现故障线路甚为重要。采用单一选线原理进行故障选线的方法在实际应用中难以达到电力系统的运行要求,准确率和可靠性都比较差,因此利用多源判据来进行综合选线逐步成为当前的发展趋势。小电流接地系统故障时线路中的故障电流分量不大,而且配电网系统还能继续带故障对称运行,持续供电不受影响。带故障运行危害电网
随着机械设备不断向高精度、高效率、智能化的方向发展,对机械传动提出了更高的要求。蜗杆传动作为重要的传动方式之一,被应用在数控机床的精密分度系统中,其中数控可转位刀片周边磨床最为典型。该机床根据刀片的形状,传动系统需要重复正反旋转运动,为了提高加工效率,获得高精度的刀片,需要消除蜗杆传动中的齿间间隙,提高运动的平稳性。首先,以分段双导程精度分度蜗杆副为研究对象。根据蜗轮蜗杆的加工方法和空间啮合理论,
快速控制反射镜(Fast Steering Mirror,FSM)是一种通过控制反射镜快速、精确的偏转运动实现对光源和目标之间的光束精确调整和稳定的重要部件。FSM具有较小的系统体积、较高的偏转精度和响应速度,跟踪信号能力强,在激光加工设备、星间激光通信等多个重要领域发挥着重要的作用。FSM起源于20世纪80年代,西方发达国家经过多年的研究发展,其FSM系统已经成熟并进入商业化。我国FSM系统发展
单原子催化剂(Single-Atom Catalysts,SACs)是指金属活性组分以单个原子形式分散的催化剂。与传统纳米催化剂相比,单原子催化剂具有高活性、高选择性以及高原子利用率等特点
在2015年的股灾中,以“证金汇金”为代表的“国家队”资金纷纷入市为国护盘。作为向市场传递“信号”的特殊机构投资者,从短期来看,“国家队”成功平抑市场波动并提振市场信
企业可以通过实施BOP(Base of Pyramid,意指低收入人群)战略创造出新的产品或流程来满足低收入人群的经济、生态和社会的需要,从而为企业带来收益的同时缓解贫困问题。由于BO
近年来,人口老龄化形势日趋严峻,老年人口快速增长,中国进入了老龄化社会,养老问题也逐渐进入公众的视角。随着市场的需求,养老市场吸引着越来越多的企业加入。会展作为产业
文廷式(1856—1904)是晚清政坛上的风云人物,其跌宕起伏的人生经历、超出常人的学识才气,使其诗歌无论是在内容上还是在形式上都取得了较高的艺术成就。文廷式的诗歌崇尚风雅兴寄,以追步唐宋气象为旨归。在晚清诗歌流派层出的情况下,文廷式兼收并蓄,推陈出新,创作出有自己风格特色的诗歌。论文分为三章:第一章叙述文廷式的人生经历、文学作品及诗歌主张。文廷式得到过近帝侧、作帝王师的最高荣誉,也饱尝了革职惩处
随着全球经济的发展,汽车的数量在以惊人的速度增长。作为一种便捷的现代交通工具,汽车为我们的生活提供了方便,但排放的尾气也给环境和资源带来巨大压力。因此,燃料电池汽车应运而生。燃料电池汽车不消耗石油资源且排放物无污染,既能满足使用需求,又节能环保。我国燃料电池汽车虽然取得了一定的发展,但还有很多不足,因此,将该领域英文文献介绍到国内很有必要。此举不仅可以加深我们对燃料电池汽车的理解,也可以积累该领域
广义有限差分方法是一种是近年来热度较高的新型无网格数值方法,相较于传统的网格法,该方法在处理初-边值问题方面占据明显的优势,主要表现为可以避免耗时耗力的网格生成过程