基于蛋白质序列信息的DNA结合蛋白识别与预测框架研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:gsqj123465
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的不断完善和发展,下一代测序技术的出现从根本上改变了种群遗传学、分子数量遗传学、微生物生态学等众多生物学领域的研究方式。蛋白质作为人类细胞中及其重要的分子,随着其结构和功能的不断深入,越来越多的学者致力于对未知蛋白的研究。DNA结合蛋白是蛋白质与DNA结合形成的复合物,其主要功能是组织和压缩DNA以及调节和影响各种生物细胞过程,如转录、重组、修复和修饰等。此外,研究DNA结合蛋白识别对治疗遗传疾病和开发癌症药物有着重要意义。传统的实验方法耗时且昂贵,基于机器学习的方法成为当前预测DNA结合蛋白的主流方法。为了提高识别精度,本文从蛋白质序列信息角度出发,基于机器学习方法开发了新的DNA结合蛋白识别模型。主要研究工作如下:1、DNA结合蛋白预测的主要原理是利用已知蛋白的序列信息推测出未知蛋白。针对PSFM谱对于序列信息提取不完全的现象,本文研究了基于PSFM-DDT的蛋白质向量化方法。首先介绍了位置特异性频率矩阵以及支持向量机特征递归消除法的计算原理,利用不同氨基酸距离转换技术,将PSFM矩阵中两两氨基酸信息转换为固定维向量。随后,使用包装器的特征消除方法,计算数据集中所有特征的权重,从中筛选出最优特征子集,最后,通过支持向量机训练模型,计算模型性能。2、提出了基于Pseudo KNC和集成学习的蛋白质预测框架研究。由于集成学习模型可以通过组合多个基本分类器来实现高精度的集成分类器,因此可提高模型的可靠性。伪氨基酸组成包含大量的序列顺序信息,尤其是全局或远距离序列顺序信息,为了更加全面的提取蛋白质序列特征,本文使用了融合特征空间的方法,将三种不同的特征提取方法提取到的序列特征融合为一体,进一步使用集成学习优化特征,最终模型的精度优于当前同样选择集成学习训练的模型,证明了该框架的合理性和实用性,提高了当前DNA结合蛋白识别的准确度。本文使用了两个广泛应用于DNA结合蛋白识别的数据集,实验结果证明,两种方法对于识别精度的提高有显著的作用,且识别的准确度优于同类模型。
其他文献
背景:帕金森病(PD)是一种常见的慢性、神经退行性疾病,目前研究中PD的发病机制尚不明确,但神经炎症已被确定为疾病进展的关键因素之一。研究表明,神经肽在体内和体外都具有神经保护作用,如垂体腺苷酸环化酶激活肽(PACAP)和血管活性肠肽(VIP)等,已经在帕金森病模型中得到广泛的证实。然而,PACAP和VIP对帕金森病患者的作用尚未可知,包括体内浓度水平,特别是涉及到非运动症状。因此,本研究评估患者
学位
背景及目的:宫颈癌作为现阶段病因最为明确的恶性肿瘤。在中国近年来,其发病率及死亡率都有逐年上升的趋势,这与发达国家发病率下降的趋势相反,反映了我们的有效筛查和预防做的还不够。人乳头瘤病毒(HPV,Human papillomavirus)高危亚型的慢性感染几乎能引起所有的宫颈癌,有效筛查和疫苗接种是预防疾病的有效策略,特别是在癌前病变的阶段,所以定期筛查、准确诊断是重要基础。本文希望通过我们的研究
学位
以酿酒酵母菌和植物乳杆菌作为发酵剂,探讨白砂糖和黄油对面包感官品质、比容和体积、质构、挥发性风味物质的影响。结果表明:白砂糖和黄油可显著改善面包的外观、色泽、组织结构、弹性、气味和口感等;可使面包的体积提高13.80%,硬度降低35.35%,弹性降低37.91%。在挥发性风味物质主成分方面,电子鼻检测结果表明,白砂糖和黄油使面包样品形成的风味主成分区域几乎无重叠,显著改变面包样品中挥发性物质主成分
期刊
背景近年来消化道肿瘤发病率有上升趋势,结直肠癌发病率位于我国第二位,死亡率位于我国第五位。腹腔镜于上世纪90年代进入我国并完成第一例胆囊手术,微创技术像雨后春笋般发展,逐渐成为外科治疗消化道肿瘤的主要选择方式。结肠癌切除后,取出标本途径不同,往往与术后并发症有关。本研究中心自创平行重叠吻合法术式(Parallel and cross-to-overlap anastomosis method,PC
学位
背景:我国儿童支气管哮喘患病率逐年升高,婴幼儿反复发作喘息可能是支气管哮喘的早期临床表现,是诊断婴幼儿哮喘的起始点[1]。目前临床诊断婴幼儿哮喘主要依据患儿临床特征和既往病史,若不能准确诊断和早期识别,或者治疗不规范都可能会延误诊断和治疗。研究表明[2],约50%的儿童在学龄前有过一次喘息,60%的喘息患儿在6岁后不再发作,但部分儿童喘息会持续存在,最终发展为支气管哮喘。早期反复喘息可能会使患儿的
学位
当今世界,随着经济的发展,科技的进步,计算机系统的规模逐步增大,系统发生故障的概率也随之增长。因此,保护系统的可靠性和安全性变得越来越重要。促使系统可靠性提高的一个重要手段是当系统发生故障后,能够采用有效的诊断算法对系统中故障快速定位,并且能够准确地判断出系统故障集,以便使程序员和维护人员能尽快对故障的地方进行修复,使系统恢复到发生故障之前的正常工作状态。系统级故障诊断是检测系统故障的一种有效方法
学位
背景:妊娠期高血压疾病(Hypertensive disorders of pregnancy,HDP),包括妊娠期高血压(Gestational hypertension,GH)、子痫前期(Preeclampsia,PE)、子痫、慢性高血压合并妊娠及慢性高血压合PE,是一组妊娠期女性特有且常见的疾病,发病率约10%。该组疾病严重影响母儿健康,是母儿就诊的重要原因之一。同时,HDP可导致孕妇远期并
学位
背景和目的:男性尿道狭窄是各种原因导致的尿道管腔减小。其主要表现是排尿困难,并可能出现包括尿潴留、充盈性尿失禁、尿道周围感染、慢性肾功能衰竭等一系列并发症。硬化性苔藓(lichen sclerosus,LS)目前被认为是导致男性前尿道狭窄的一重要原因。LS是一种T淋巴细胞介导的慢性疾病。目前对该病病因认识不足,其主要表现是病变区域粘膜萎缩变薄、色素缺失、瘢痕挛缩等,如不及时就诊,病变可逐渐侵犯男性
学位
第一部分:急性心肌梗死后室间隔穿孔患者短期死亡危险因素及不同治疗方法分析。目的:研究急性心肌梗死后室间隔穿孔(PIVSR)患者的临床特点、短期死亡的危险因素及不同治疗方法对预后的影响。方法:回顾性分析2013年1月1日至2019年12月31日在河南省人民医院心脏中心确诊为PIVSR且符合入选条件的患者共112例,收集患者的临床资料、入院时生命体征、心电图、超声心动图等资料。根据短期内(2周)是否存
学位
背景与目的多发性硬化(MS)、视神经脊髓炎谱系疾病(NMOSD)、抗髓鞘少突胶质细胞糖蛋白免疫球蛋白G抗体相关疾病(MOGAD)是三种常见的中枢神经系统特发性炎性脱髓鞘疾病(IDDs),虽然三者的病因和发病机制不尽相同,但临床症状和影像学表现常有重叠,加之MS和抗体阴性的NMOSD缺乏特异的实验室诊断标志物,因此临床诊断常面临挑战,本研究旨在分析三种疾病的临床特征,为减少临床误诊、漏诊提供循证医学
学位