长链非编码RNA亚细胞定位预测问题的多特征融合算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lwm1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类基因序列的三十多亿个碱基对中,能够被反转录的占比为三分之二,能够被用于编码蛋白质的仅有不到百分之二。因此,在基因序列中包含着大量的碱基对序列并不表达蛋白质,这一类碱基对序列被称为非编码RNA(Non-coding RNA,ncRNA)序列。这些非编码RNA序列在生物整体基因序列总所占比例对于物种的区分密切相关,且其在物种发育成长和物种特性基因表达上发挥着调控作用。有大量研究表明,长链非编码RNA在表观遗传学调控的方面起着越来越重要的作用,参与了多种RNA的调控等过程,其亚细胞定位信息便显得尤为重要。长链非编码RNA一般意味着序列长度大于200,这些序列具有分子机制和功能的高度复杂性,对于它的研究一直落后于其他非编码RNA。对于长链非编码RNA的亚细胞定位,主要存在几个问题:研究者们往往只能通过生物实验的手段进行验证,非常耗时且成本昂贵,对于亚细胞定位问题的解决效率并不算高;并且,即使有机器学习的解决方案,对于长链非编码RNA序列的特征提取方法较为单一;此外,传统的长链非编码RNA亚细胞定位问题的研究往往仅仅关注单标签分类问题,而从实际角度出发,该问题其实是一个多标签分类问题。本文基于以上几点问题,讨论了基于多特征融合的算法来解决长链非编码RNA的亚细胞定位的可能。本文的主要工作内容如下:(1)提出了一种基于多特征融合算法的LncRNA亚细胞定位预测算法,利用多角度提取的核苷酸序列特征,结合基于差分进化的特征融合算法对各特征进行权重分配后融合,并且对融合后的特征降维以获取最佳特征子集,最终在多种多标签分类器中选择出最佳分类器。(2)在特征方面,本文主要考虑了四个角度:传统的序列组装算法K-mer、基于子序列的考虑了上下文信息的编码特征、核苷酸序列的生物结构特性、核苷酸序列的伪二核苷酸组成(Pse-DNC)。首先,对于上述从核苷酸序列提取出的四种特征,我们都将其分别与机器学习算法相结合,进行多标签分类预测。实验结果表明,上述特征均可以从不同的角度有效表达核苷酸序列与亚细胞定位结果的一些内在规律。进一步地,我们可以将上述四个角度提取的特征进行融合,得到一个从多角度描述核苷酸序列的融合特征,并通过降维得到最优特征集合作为机器学习分类器的输入。(3)实验结果对比各单独特征的表现以及其他融合方案,AP与准确率平均结果均有上升,汉明损失、1-错误率和排序损失下降。在10折交叉验证结合20%独立留出验证的条件下,相较于使用同数据集的现存工具,AP等指标均有提升。同时,将本文算法应用在扩展的人类LncRNA数据集上,相对现存工具AP上升了 4.1%。本文亦开发了在线网站和开源工具,方便相关研究者们使用。
其他文献
近年来,由惯性导航系统(INS)与全球卫星导航系统(GNSS)相结合的组合导航系统广泛用于增强无人驾驶车辆的位置、速度和姿态信息。然而,GNSS信号易受复杂的外界环境影响,在遮挡严重的城市峡谷、隧道等地信号会发生中断,无法完成定位服务。因此,研究GNSS/INS组合导航系统在特殊环境下GNSS信号丢失时,如何能够提供可靠的导航服务具有重要意义。解决GNSS/INS组合导航系统中GNSS信号丢失问题
学位
在射频微波器件的设计中,需要在保证器件工作性能的前提下减少设计时间和成本,通常用CAD(Computer Aided Design)软件来建立射频微波器件模型。但在传统射频微波器件的设计中,需要不断优化各参数以满足设计指标,整个过程是耗时费力的。深层神经网络具有高维数据处理能力和复杂非线性关系的近似能力,因此将深层神经网络建模方法应用到天线等射频模块设计中。本文主要的研究工作概括如下:首先,针对基
学位
知识图谱是一种用图来描述知识的技术方法,在表示从不同领域收集的知识方面起着至关重要的作用。然而,不同的知识图谱通常由不同的技术或不同的语言构造,这些单独构建的知识图谱之间包含异构但互补的内容,因此将不同来源或不同语言的知识图谱整合为统一的知识图谱很有意义,一种有效的对齐知识图谱的方法是把多个不同来源但代表相同对象的实体进行对齐。在大数据时代的背景下,为了实现知识的全球共享,跨语言实体对齐作用愈加明
学位
无线通信技术的飞速发展,以及各类新型通信业务场景的不断涌现,正在促使着人-机-物-空间的全面互联。伴随着网络终端数目的持续增长,无线频谱资源稀缺与频谱利用率之间的矛盾日益显现,加重了整个网络的负担。终端直连通信(Device-to-Device,D2D)和非正交多址接入(Non-Orthogonal Multiple Access,NOMA)等下一代无线通信关键技术,可以有效缓解无线频谱资源压力。
学位
随着移动设备需求的增长,价格低廉的单频接收机占据了主要的GNSS市场。因此,基于单频接收机的PPP技术逐渐受到关注。本文在C++平台实现了GNSS单频PPP算法,结合MGEX跟踪站和实测数据,比较GPS、Galileo、BDS各频点的数据质量、单频PPP定位精度和收敛速度,分析了不同条件下的单频PPP应用效果。本文研究内容和结果如下:(1)选取全球范围内分布均匀的29个MGEX站,进行各频点的数据
学位
随着时代的不断发展和社会生产力的提高,网络进入到家家户户,在人们生活中的比重越来越大,各种网络平台已经成为获取和传播信息的重要媒介,与此同时,微博凭借其社交性、易用性、灵活性等突出优势,逐渐成为目前中国最受欢迎的网络社交平台。2020年初,新冠肺炎疫情的爆发极大影响了全球大部分地区民众的生活状态,此次公共卫生事件成为全社会关注的重点,国民线下沟通交流更加困难,更依赖互联网平台发表评论以表达自己的态
学位
随着应用软件的深入普及,软件的复杂性和多样性也同样随之日益增加,随之而来的是软件缺陷的增加,这将使软件的测试和维护成本升高,同时使用户的体验感降低,从而导致用户量的减少和公司名誉的损害,严重者甚至会产生灾难性的危害。软件缺陷预测技术可以在软件开发的早期识别有缺陷的软件模块,有助于开发人员及时修复bug,从而提升软件质量。在软件的缺陷预测中,常常会出现类不平衡问题,即有缺陷类别的样本数量一般远小于无
学位
中国经济自改革开放以来的不断发展,机构类客户在对公客户的客户结构中愈发显现重要战略地位。由于大中型机构客户存在存款余额稳定、存款体量大、支取存在强周期性和计划性等明显优势,越来越多的商业银行意识到深度营销及维护机构类客户的重要性,同时机构类业务的市场竞争也呈现了日益激烈的趋势。东方银行吉林省分行于2020年成立机构客户部,为公司金融部下设二级部门,机构客户业务存在相较同业起步较晚、市场竞争激烈、营
学位
以2020年水土流失动态监测成果为数据基础,分解确定黑龙江省县级2025年、2030年、2035年水土保持率阶段目标值和2050年远期目标值。具体方法为利用ArcGIS软件的Slope和Reclassify工具对目标县耕地进行坡度分级,提取耕地数据,对水土流失强度及类型赋值,进而创建坡度、水土流失强度及类型叠加值矩阵,对县级行政区划、土地利用、水土流失强度及类型、坡度等空间数据进行叠加分析,根据关
期刊
轴承作为机械设备常用的回转标准件,其零件加工精度、回转精度、承载能力和额定转速等方面的参数和性能,时刻影响着机械设备的运转效率和使用寿命。随着多种轴承表面缺陷检测方式的普及和发展,寻找一种非接触性、无损伤、高效率的轴承缺陷检测方式成为当务之急。本文对于此问题,以向心圆柱滚子轴承内圈外部曲面缺陷作为研究对象,运用偏振视觉检测技术与传统视觉技术相结合的方式,设计一套轴承内圈外曲面缺陷视觉检测系统。本文
学位