基于序列的蛋白质进化关系分析和抗菌肽识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sk1011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在生命过程中扮演着重要的角色,与许多疾病有着密不可分的关系。随着测序技术的不断发展,蛋白质序列信息呈现爆发性增长,但由于人力、物力的限制,蛋白质的结构和功能的分析相比而言发展较为缓慢。传统人工方法通过复杂的实验可以有效的识别出蛋白质的功能结构,但是需要花费大量的时间精力,由此本课题以蛋白质的一级结构为基础,通过机器学习方法分别从两种不同的角度对蛋白质的远同源性检测与折叠识别和抗菌肽的结构功能预测进行了研究。一种是从空间结构的角度入手通过研究蛋白质的进化关系,利用序列谱方法引入更多的蛋白质进化信息来解决蛋白质的远同源性检测和折叠识别问题。另一种是从通过蛋白质功能的相互关系角度入手,通过利用标记之间的相关性,将问题转化为多标签问题来解决抗菌肽功能预测问题。针对如何高效的解决蛋白质的远同源性检测问题和折叠识别问题,本文在序列谱引入进化信息方法和提升序列谱信息质量两个方面进行研究。设计了两种特征提取方法DeKmer-Top和Dekmer-MSA,两种方法分别利用不同的方式从序列谱中提取出蛋白质的进化信息。在使用特征提取方法提取特征时往往会导致维度灾难的问题,本文使用缩减字母表来控制维度的爆发式增长。并且使用两种去噪方法加强生成特征的质量,进一步提升算法的预测表现。针对如何提升现有方法在抗菌肽功能识别问题上的表现,本文设计一个两层预测器框架CHDAMP,第一层实现区分判断蛋白质是否为抗菌肽,是一个二分类问题,第二层对抗菌肽的活性功能进行标记,是一个多标签问题。本文提出了一种多标记方法RAKELECC,从两种不同的角度考虑标记之间的相关性,进一步提升分类器的预测效果。建立更新抗菌肽数据集,其中包含了8100个non-AMP样本,2700个AMP样本和8种不同的功能类别,较之于之前的APD3数据集多出了1821个AMP样本和3种新的功能类别。针对抗菌肽活性功能问题中数据集不平衡的问题,本文提出一种适用于处理多标记数据集不平衡问题的过采样方法NML-SMOTE。对数据集中含有较少样本的功能类别进行合理的扩充来平衡数据集,从而减少由于数据集不平衡导致的分类器预测偏差,最终在比较数据集上实验效果(Hamming Loss:0.1527,Subset Accuracy:0.5006)。
其他文献
在2017年“巴菲特午餐”活动上,巴菲特在回答北大光华学子时说到,人工智能毫无疑问是会到来的,并将在很大程度上引发一些行业的变革。在此背景下,2017年8月国务院印发《新一代人
目的:对针对性护理措施应用在慢性宫颈炎患者中对其临床症状改善程度的影响进行评价。方法:抽选我院64例慢性宫颈炎患者为调查样本,通过分层抽样的方式分为2组,对照组给予常
[目的]明确系统性红斑狼疮(SLE)病人的创伤后成长体验,为提高此类病人的创伤后成长提供参考依据。[方法]采取目的抽样法选取12例SLE病人作为研究对象,对其进行半结构式深度访
巴赫是巴洛克时期著名的作曲家、管风琴大师。一生创作的作品无数,其中复调音乐是他的最高成就,被誉为“旧约圣经”的《平均律钢琴曲集》更是古往今来无数学者研究和学习的范
结合旅游地理学授课内容及课程的特点,在教学尝试的基础上,提出了在教学中如何培养学生的创新能力的做法和建议.
目的对人真皮成纤维细胞(hFbs)进行分离培养及鉴定,为组织工程复合皮肤的构建提供种子细胞。方法利用组织块培养法、消化传代纯化培养hFbs,通过细胞形态的观察及免疫细胞化学、
伴随着我国电网输送线路逐步向城乡地区延伸,其规模也在不断扩大,这也就要求电网输送线路运行安全可靠。输变电事故跳 闸时,对电网供电的最大威胁之一,大大增加了电网的维护
目的对比获得性免疫缺陷综合征(AIDS)合并细菌性血流感染与真菌性血流感染的临床特征及预后。方法回顾性分析2016年1月1日-2018年6月1日重庆市公共卫生医疗救治中心收治的AID
11月13日上午,“武汉市物业管理行业第四届消防技能比赛”隆重举行。武汉市住房保障和房屋管理局副局长潘臻肇、物业处处长肖蕾、安维处副处长柯爱平,各区房管局分管领导和物业
目的:评价推拿联合牵引治疗颈椎病的临床疗效。方法:选择2015年10月~2020年10月间本院收治的60例颈椎病患者,随机分为对照组和研究组,各为30例,对照组患者接受常规牵引治疗,