基于序列特征融合的蛋白质可溶性预测

来源 :计算机科学 | 被引量 : 0次 | 上传用户:CRP0538570914
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质可溶性在药物设计的研究中起着重要的作用,传统生物实验测试蛋白质可溶性费时费力,因此基于计算方法对可溶性进行预测成为一个重要的研究方向.针对传统可溶性预测模型不能充分表示蛋白质特征的问题,文中设计了一种基于多种蛋白质序列信息的神经网络模型PSPNet,并应用到蛋白质可溶性预测中.该模型首先使用氨基酸残基序列嵌入信息和氨基酸序列进化信息表示蛋白质序列;然后采用卷积神经网络提取氨基酸序列嵌入特征的局部关键信息;其次利用双向LSTM网络提取蛋白质序列远程依赖特征;最后利用注意力机制将该特征与氨基酸进化信息融合,并将包含了多种序列信息的融合特征用于蛋白质可溶性预测.实验结果表明,相比基准方法,该模型提高了蛋白质可溶性预测的精度,并具有良好的可扩展性.
其他文献
在暗光或逆光拍照时,获得的图像常常出现过暗或光照分布不均的现象,导致图像视觉质量较差.基于Retinex模型的暗光增强模型能实现有效地光照增强.但此类暗光增强模型也存在一些问题,即待处理图像中暗光区域的可视度虽然得到了有效改善,但其中隐藏的噪声也被放大和凸显,依旧影响了增强结果的视觉质量.为解决这一问题,构建了基于低秩矩阵估计的暗光图像增强模型.首先,构建包含噪声项的Retinex模型并对其进行交替优化,将暗光图像分解为光照层I以及反射层R.在这一过程中,利用低秩矩阵估计实现了对R层的噪声抑制.其次,考虑
随着移动增强现实(Mobile Augmented Reality,MAR)技术的飞速发展,MAR应用的种类及功能也越来越丰富多样,与此同时用户对MAR应用的视频质量及响应时间也提出了更高的要求.通常来说,MAR应用会将计算密集型任务(目标识别及渲染)卸载到云端或边缘服务器进行处理,并将渲染后的图像下载到移动端.但由于移动网络状态的不稳定性及网络带宽的限制,海量数据的传输将延长MAR应用响应时间,进而增加移动设备的传输能耗开销,严重影响用户使用体验.由此,文中提出了一种基于梯度提升回归(Gradient
通过生成对抗网络进行段落生成序列图像的任务已经可以生成质量较高的图像.然而当输入的文本涉及多个对象和关系时,文本序列的上下文信息难以提取,生成图像的对象布局容易产生混乱,生成的对象细节不足.针对该问题,文中在Sto-ryGAN的基础上,提出了一种基于场景图的段落生成序列图像方法.首先,通过图卷积将段落转换为多个场景图,每个场景图包含对应文本的对象和关系信息;然后,预测对象的边界框和分割掩膜来计算生成场景布局;最后,根据场景布局和上下文信息生成更符合对象及其关系的序列图像.在CLEVR-SV和CoDraw-
文本情感极性分析是自然语言处理的热点领域,近年来基于中文语料的情感分析方法受到了学术界的广泛关注.目前大部分基于词向量的循环神经网络与卷积神经网络模型对于文本特征的提取和保留能力不足,为此文中引入了多层自注意力机制,提出了一种结合双向门控循环单元(BGRU)和多粒度卷积神经网络的中文情感极性分析方法.该方法首先使用BG-RU获取文本的序列化特征信息,然后使用自注意力机制进行初步特征筛选,将处理后的特征信息导入含有不同卷积核的卷积神经网络;再使用自注意力机制对获得的局部特征进行动态权重的调整,注重关键特征的
现代编译器提供的优化选项众多,选择何种参数因子、选择哪些选项组合以及以何种顺序应用这些选项成为复杂的问题,其中优化次序问题是最困难的优化问题.随着传统方法的改进(迭代编译结合启发式优化搜索)以及新技术的出现(机器学习),构建一种相对高效、智能的编译器自动调优框架成为可能.文中通过调查过去数十年的相关研究,总结了前人的研究思路和应用方法.首先介绍了编译器自动调优的发展历程,包括早期的手工方法、成本函数驱动的方法、启发式优化搜索驱动的迭代编译、基于机器学习的直接预测以及机器学习驱动的迭代编译方法.然后重点梳理
基于DNA链置换反应构建了逻辑推理问题的DNA计算模型.在不依托荧光标记技术等DNA实验技术的前提下,利用尽量少的DNA反应链和链置换反应以及构建0-1函数,实现了DNA链的浓度变化与布尔逻辑信号值之间的对应关系,将DNA模拟计算和数字逻辑运算相结合,设计出基于DNA链置换反应的基本逻辑运算“与”“或”“非”的DNA计算模型.利用DNA链置换反应的级联特性,将基本逻辑运算进行任意的组合,形成组合逻辑表达式,以满足不同逻辑推理问题的需求及实现完整的逻辑推理过程.通过实例得到了可满足性问题这一特殊逻辑推理问题
基因在生命科学领域的研究中占据着重要地位,而致病基因则是关键重心之一.对致病基因的精准识别可以揭示疾病在分子层面的发病机制,为疾病的预防、诊断及治疗等多个阶段提供强力支撑.准确识别致病基因的关键在于给出基因之间的相似性度量.文中利用复杂网络对生物系统进行建模,并提出了一种带有耗散机制的多源头重启随机游走模型DRWMR来度量基因之间的功能相似程度.首先基于NCBI等生物数据库构建人类基因相互作用网络,并在KEGG的疾病-基因关联数据集上开展实验对已知致病基因进行识别.与SP,RWR和PRINCE 3种现有模
近年来,神经机器翻译的译文质量取得了显著的进步,但是其在训练过程中严重依赖平行的双语句子对.然而对于电子商务领域来说,平行资源是稀缺的,此外,文化的不同导致产品信息表达存在风格差异.为了解决这两个问题,提出了一种基于风格感知的无监督领域适应算法,该算法在互训练方法中充分利用电子商务单语数据,同时引入拟知识蒸馏的方法处理风格差异.通过获取电商产品数据信息构建非平行双语语料,基于该语料以及中英新闻平行语料进行多组实验,结果表明,相比各种无监督领域适应方法,该算法显著提高了翻译质量,较最强的基线系统提高了约5个
在因果网中,对和积问题因果效果的计算是其首要问题,从有向无环图的角度,研究者们发现每一个因果网都有一个与之对应的贝叶斯网络,干预是因果网的一个基本操作.类似于贝叶斯网络中的剪枝策略,在剪枝掉所有无效结点后,文中设计了一种优化的算法OFDo来计算对因果网中每个结点的完全原子干预.文中接着研究多干预操作,发现多干预操作具有可交换性,并基于多干预操作的可交换性证明了多干预操作的优化计算策略.最后,通过实验证实OFDo计算对因果网中所有结点完全原子干预的效率比目前的算法都好.
为了解决单一军事领域语料不足导致的领域嵌入空间质量欠佳,使得深度学习神经网络模型识别军事命名实体精度较低的问题,文中从字词分布式表示入手,通过领域自适应方法由额外的领域引入更多有用信息帮助学习军事领域的嵌入.首先建立领域词典,将其与CRF算法结合,对收集到的通用领域语料和军事领域语料进行领域自适应分词,作为嵌入训练语料,并将词向量作为特征与字向量拼接,以丰富嵌入信息并验证分词效果;然后对训练所得的通用领域和军事领域的异构嵌入空间进行领域自适应转换,生成领域自适应嵌入,并作为基础模型BiLSTM-CRF层的