复合编码特征的LSTM基因甲基化位点预测方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:one9871023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的生长发育等一切性状受基因和环境共同影响,其中基因广泛参与生命过程中各项生理机能的调控,对生物性状起决定性作用。甲基化作为一种常见的基因表观遗传修饰在许多生物过程与许多重大疾病的发生发展密切相关,DNA-N6甲基腺嘌呤(6-m A)表观遗传修饰是重要的表观遗传修饰标记之一。异常的6-m A位点会影响基因表达,从而引发多种重大疾病,因此预测6-m A位点对理解治病机理和治疗疾病有重要意义。基于此,本文对深度学习模型在6-m A甲基化位点预测上的应用进行了研究,主要内容包括:(1)研究由4种碱基组成的基因序列的高维数值化表示方法,研究基于高维数据的空间特征及时序特征,形成适用于长度为41bp并由A、T、C、G四种碱基组成的基因的基因表达的编码方式;结合K-mer的编码方式,增加了原始基因序列的特征提取数量及种类(由41x1的序列编码为40x16的矩阵),建立了独特的序列编码方法。(2)明确了挖掘基因序列上高纬度时序特征分析的目标,研究深度学习模型各层的功能以及用途,分析LSTM对高维数据的处理特点,合理设计模型中每一层的衔接,用实验测试不同的初始化函数以及不同的优化器函数对模型预测准确率的影响,改进LSTM功能层设计,优化模型在基因序列数据集上的性能。建立适合完成挖掘长序列上位点信息任务的模型。(3)在复合编码LSTM模型的基础上,融入迁移学习的设计思想,对模型跨物种预测进行优化。设计多跨物种预测6m A位点的LSTM迁移学习模型,利用迁移学习解决某物种的6m A位点样本量不足的情况下的位点预测问题。(4)研究评估模型性能的指标系数,建立模型输出与性能指标相对应的评估策略,建立在相同数据集下多种模型输出结果对照组实验,从模型准确率、灵敏度、特效度、综合评价指标以及模型泛化能力等多方面,评判模型处理6m A长序列位点预测能力,再通过创建含有潜在甲基化位点可能的数据集并输入模型进行预测,将结果与多种在线6m A预测工具进行支持率的对比,从而验证模型的可靠性。论文提出的基于K-mer方法和One-Hot方法复合特征编码的长短期记忆神经网络(LSTM)用于基因甲基化位点预测。通过K-mer编码方法增加序列信息量,结合One-Hot编码方法形成复合编码矩阵,增加LSTM模型从基因序列数据中可提取的特征维度和种类,以提高LSTM模型对基因序列的处理性能。十折交叉验证实验结果表明,本方法在公共数据集上可取得93.7%的准确率,且敏感度、特异性和马氏相关系数分别为93.0%、94.5%和0.875,优于现有方法。在六个不同物种的甲基化数据集上,本方法可取得0.9055至0.9262的AUC值。实验结果得知,该方法在使用较大规模的数据集训练时,可获得较高的预测精度,并可以应用于预测6-m A位点工作,为6-m A位点的预测提供了新颖的研究方向,对有限数据集下的甲基化位点预测提供了一种有效的解决方案,有望在基因甲基化预测和研究中起到理论上的计算辅助和帮助。
其他文献
脉冲神经网络(Spiking Neural Network,SNN)也被称为第三代神经网络,它以脉冲事件驱动的方式实现了神经元突触计算,有望突破人工神经网络现阶段所面临的能源和吞吐量瓶颈问题,在机器人、自动驾驶、军事、航天等领域具有巨大的潜在应用价值。但SNN仍然存在着无法直接训练的难题。基于脉冲时间依赖可塑性(Spike-Timing Dependent Plasticity,STDP)规则的S
学位
近几十年来,人工智能技术发展日新月异,它被认为是第四次工业革命,5G、存储、大数据等多种技术的发展带来了数据的井喷,丰富多样的数据资源为人工智能训练系统提供了依据。本论文所研究的图像语义分割是计算机视觉领域的重要分支,具体来讲它的任务是从像素级的角度分割出图片中的不同对象,对原图中的每个像素都进行标注分类。简单的说就是在一副图像中,把目标从背景中分离出来。语义分割已经被广泛应用于需要提取目标具体轮
学位
国内社区卫生服务设施自发展起步以来,随着现实条件、人民健康需求、以及政策形势要求等不断变化,其发展目标、发展问题、以及发展方式等同样在发生改变。当前,在城市更新导向下,国内社区卫生服务设施发展进入新阶段,面临新的矛盾与需求,本文对北京市中心城区内社区卫生服务设施进行评价与优化研究,旨在为国内不同地区内社区卫生服务设施,在现实条件限制下、持续更新以匹配不同阶段的发展任务时,提供较为普适性的方法与思路
学位
网络对齐是映射不同网络间节点关系的方法,在生物信息、计算机视觉、社交网络领域有着广泛的应用。但是,网络对齐在仅利用网络拓扑图结构进行节点对齐时,存在其内部具有等价关系的节点无法区分的现象,导致了网络对齐结果评价指标较低问题。该问题并不是由对齐算法自身产生,而是图结构中等价类自身特性所致,因此在度量网络对齐结果时应考虑其中不可绝对匹配的节点等价关系。然而,当前主流的网络对齐度量方法没有考虑这一问题,
学位
新时代下的互联网高速发展,各种数据呈现爆炸式增长。其中新闻文本数据随着推送、流媒体平台、社交媒体的普及已广泛渗透进大众生活,人们迫切希望找到有效缓解信息过载问题的方法。近年来,深度学习的发展极大地推动了自动文本摘要技术的研究。但已有的方法仍存在一些不足,面向中文语料的新闻文本摘要算法没有充分利用中文分词特征,以及摘要算法的训练目标中欠缺对整体语义相关性的考量,导致摘要连贯性较差等问题,最终影响文本
学位
实体关系抽取作为自然语言抽取领域的重要子任务,在知识图谱、搜索引擎以及智能问答等下游任务中发挥着重要的作用,根据命名实体识别和关系抽取两个子任务是否相互独立,分为流水线式抽取和联合式抽取两种方法。近年来基于预训练语言模型的联合式实体关系抽取方法取得了不错的研究进展,但仍然会出现实体重叠、关系重叠以及实体冗余等问题,同时在进行关系抽取时没有充分利用实体本身蕴含的重要信息。特别是中文实体关系抽取,由于
学位
离散事件系统(DES)是由一系列状态和事件组成的动态数学模型。随着通信和传感技术的快速发展,现代工业系统规模越来越大,系统在运行时难免会出现故障。为保证系统可靠性,控制工程师应设计一个能在正常范围内安全运行的系统,并在系统故障发生前,尽可能预测出即将发生的故障,以采取相应措施,对故障进行规避。因此,对DES发生故障前的预测问题的研究具有重要价值。随着计算机领域的快速发展,计算机集群式的算力得到大幅
学位
导数计算是包括机器学习在内的多个领域的重要需求,针对这一需求,目前存在多种不同的微分方法和实现手段。其中,基于源代码转换的自动微分由于其高效性以及适用性强的特点被广泛使用,但其实现难度较大。基于操作符重载的自动微分会导致微分的时间开销过高。基于此,本文聚焦于自动微分的实现及优化,通过追踪以及符号微分等方法与源代码转换相结合,以达到自动微分的简洁与高效实现。本文主要的研究成果包括:(1)提出了一种以
学位
特征选择就是从给定的特征集合中选出相关特征子集合以减少数据的维度。在分类任务中,特征选择不仅能够减少计算开销也能够提高分类准确率。进化算法和群体智能算法具有高鲁棒性和全局优化等优点,被广泛应用在特征选择中。在特征选择的实际应用中,不仅需要高分类率也需要较低的计算成本。基于这两个优化目标,现有的进化算法和群体智能算法大多对特征选择问题进行多目标优化,以及部分单峰优化的研究。其实,特征选择具有潜在的多
学位
根据ACE2005评测会议的定义,事件是主体状态变化或者主体间相互作用的一种客观表现,而事件抽取是从非结构化文本获取预定义类型事件的关键技术.在这些文本中,有一部分对事件发生与否作出了主观推测,且对应事件的发生时间常在未来而非过去,对此本文以未来事件进行定义.从实际应用上看,实现未来事件抽取可为未来事件图谱构建,信息检索及知识推理等后续任务提供结构化数据,同时还可以给当下决策提供参考依据.因为是对
学位