基于特征选择与生物相似度的HIV蛋白酶剪切位点预测研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lx90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类免疫缺陷病毒(Human Immunodeficiency Virus, HIV)是获得性免疫缺陷综合症(Acquired Immunodeficiency Syndrome, AIDS)的罪魁祸首。理解HIV蛋白酶(HIV Protease, HIV-PR)的剪切特异性对研发蛋白酶抑制剂类药物至关重要,运用模式识别的方法预测HIV-PR剪切位点可以达到这一目的。本文通过特征选择并配合分类器设计方面的工作,进行八肽序列可剪切性重要位点的研究,并在保证预测泛化能力的前提下提高预测性能。本文同时进行了基于相似度的八肽序列建模探索,提出一种基于无空位全序列比对的相似度以描述样本间的关系,并以此为基础进行HIV-PR剪切位点预测。本文内容主要分为以下三部分:第一,针对HIV-PR剪切位点预测改进CAFS (Constructive Approach for Feature Selection)特征选择算法,实现结合人工神经网络结构优化的特征选择。一方面,实现了特征降维,简化特征空间;另一方面,自动决定神经网络隐藏层节点个数,实现神经网络结构优化,从而确保其泛化能力,达到提高预测性能的目的。通过准确率、敏感度、特异度、MCC (Matthews Correlation Coefficient)和AUC (Area Under Curve)五种指标评价预测效果。结果表明,通过该方法得到的特征子集具有优秀的预测性能,将得到的特征子集进行决策融合后使预测性能得到大幅提高。此外,通过分析得到的特征子集,确定八肽序列中靠近断裂点的P1、P1’、P2和P2’位点对决定八肽序列的可剪切性起到重要作用。第二,针对HIV-PR剪切位点预测改进BPFS (Binary Projection Feature Selection)特征选择算法,将其用于本文的研究,成功地简化了特征空间和分类器结构,保证了分类器的泛化能力。同时,对支持向量机(Support Vector Machine, SVM)进行参数优化以提高预测性能。将得到的特征子集进行特征融合,并利用优化参数后的SVM进行预测,得到了出色的预测性能。试验结果表明,该工作得到的结果优于当前基于特征提取的HIV-PR剪切位点预测研究。第三,提出基于无空位全序列比对的相似度,并用于HIV-PR剪切位点预测。该相似度能很好地描述序列样本间的关系,并以此为基础实现HIV-PR剪切位点预测。基于替换矩阵计算不同样本间的相似度,进而得到相似度矩阵,利用此矩阵并结合使用SVM得到了出色的预测性能。这表明,基于相似度进行HIV-PR剪切位点预测的思路是有效
其他文献
自然拼读法可以用八个字形容:见词读音,听音写形。70%的词汇可以通过这种方法识记,其中单音节和双音节单词居多,是一种有效的英语学习方式,能帮助学生在符合英语读音规律的基
目的 评估胶囊内镜在小肠疾病诊断中的应用价值。方法 对经胃镜、全结肠镜、小肠镜、全消化道钡餐检查、腹部血管造影等检查无阳性发现的23例病变疑在小肠的患者,应用胶囊内
词汇对英语学习起着非常重要的作用,英语词汇教学是英语教学的基础,小学英语词汇的教学更是必不可少。在小学英语的教学中,大多数教师都非常重视词汇的学习,在教学过程中努力
<正> 鄂政发[1998]63号 1998年8月24日现将《关于在公路(河道)上乱设站卡、乱罚款、乱收费行政处分暂行规定》印发给你们,请遵照执行。关于在公路(河道)上乱设站卡、乱罚款、
目的观察高血压小脑出血破入脑室开颅手术中联合枕大池、侧脑室引流的治疗效果。方法将2014年7月~2018年12月在东莞市长安医院及东莞市大岭山医院收治的12例高血压小脑出血破
就当前国内图书市场上出现的一些关于民族类书籍封面设计的现状作出分析,并探讨形成这些问题的缘由。从中总结出:民族视觉元素遗失、民族视觉元素设计创意性不强、民族视觉元
尖吻兽(Akidolestes)是新近在中国辽宁省下白垩统义县组地层发现的对齿兽动物,保存了非常完整的头后骨骼。其齿列特征表明它属于鼹兽超科(Spalacotheroidea)中的鼹兽科动物(Spalaco
通过开展空乘职业技能大赛使学校及教师真正了解企业的人才需求标准,及时调整课程安排,整合校内外学习及实训资源,加强校企合作。同时,通过大赛加深学生对英语重要性的认识,
目的优选西洋参三七黄芪胶囊中黄芪的提取工艺。方法采用L9(34)正交设计试验法,分别以黄芪多糖的含量和浸膏得率为指标,优选黄芪的提取工艺。结果黄芪的最佳提取工艺为以水为提