基于SVM和K-means算法识别蛋白质结构域

来源 :中国化学会第29届学术年会 | 被引量 : 0次 | 上传用户:zhouyonge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  蛋白质结构域是组成蛋白质的基本单位,但是专家们却无法对结构域进行明确、清晰地定义.从而,对于蛋白质结构的认识和结构域划分成为了一个具有挑战性的难题.随着蛋白质数量的不断增加,拥有更加复杂结构的蛋白质在数据库中的比例也不断增加,因此,评估结构域识别算法的数据集需要进行更新,同时更加全面地识别蛋白质结构域的算法亟待构建.本文中结合使用了3个方法:支持向量机(SVM),主成分分析(PCA)和K均值(K-means)方法来识别蛋白质中的结构域,并提高了蛋白质结构域划分的准确率.在一致性小于30%的非冗余SCOP数据集上的准确率能够达到80%左右,在Holland et al.[1]提出的标准数据集2和3上的准确率分别达到84%和85%.在现有的结构域识别算法[2]中,准确率有适当的提高,对蛋白质结构域的识别能够提供一定的支持.
其他文献
  针对131个human ether-a-go-go related genes(HERG)钾离子通道抑制剂,计算了表征分子组成、电荷分布、拓扑、几何结构及物理化学性质等特征的885个分子描述符,采用方差
会议
目的:研究Ⅱ型单纯疱疹病毒(Herpes simplex virus type2,HSV-2)UL27、UL54基因的重组表达载体shRNA(small hairpin RNA, shRNA)的干扰作用,并探讨二者联合干扰对HSV-2复制的影
引言  “同课异构”是一种有效的教学研究活动形式,在我国基础教育研究方面有着广泛的应用,也是当今教研活动的一大热点。而北京市密云区以地域为单位划分为城内、库南和库北三个学区,不同学区所在学校的学生存在着非常大的差异。城内学区的密云三中、五中、六中学生的英语水平相对较好,小学基础扎实,家长重视学生教育,师资队伍也比较整齐,学生综合语言运用能力较强,听说能力相对较高,2014—2015学年度第二学期初
余华寺副井天轮属修配改设备,由武汉钢铁公司设计院设计,天轮轴承为滑动轴承,稀油润滑,油环刮板供油。该设备使用中存在两个主要问题:一是漏油严重,由于结构限制,出现漏油时
乌桕梓油中含有一种特殊结构的甘油四酯,通过水解可以得到2,4-癸二烯酸和8-羟基-5,6-辛二烯酸。这两种烯酸结构特殊,具有多种官能团,具有极大的开发价值和市场应用前景。乌桕梓油中含有41%的亚麻酸和30%的亚油酸。亚麻酸为人体必须的脂肪酸,是体内必须各生物膜的结构材料。本文对乌桕梓油中甘油四酯、2,4-癸二烯酸和亚麻酸的提取进行了研究。本文测定了乌桕梓油的脂肪酸组成及梓油四酯的含量,测定了乌桕梓
海藻是海洋中主要的低等海洋植物,是重要的海洋初级生产者,同时也是海洋天然活性物质的主要来源之一。海藻中广泛存在海洋毒素、萜类、甾体、脂肪酸、肽类、特殊氨基酸等活性化
  作为蛋白质结构、功能和遗传的基本单位,结构域在蛋白质相关领域的研究中扮演着重要的角色.对结构域的预测可以有助于我们更好地获取新发现的蛋白质序列的信息.本文基于
会议
镍氢电池因具有质量比容量高、低污染、高功率等优点,成为目前动力电池的最佳选择之一,其正极材料氢氧化镍的电化学性能是提高镍氢电池性能的关键因素。   采用化学共沉淀法
  高分辨率数据的最大特点是:信息量大、存储空间大,如何快速准确的从高分辨分析信号中提取有效的定性、定量信息一直是分析科学研究的前沿方向。特别是在高通量数据的多元
会议
  力场对于分子模拟起着根本性的作用,一个好的力场必须包含大量的参数,有广泛的适用性和准确性。但是由于化学结构的巨大多样性,没有一个通用力场(AMBER,CHARMM,COMPASS等
会议