数据挖掘在蛋白质二级结构预测中的应用

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:chester116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,生物科学技术迅猛发展,无论从数量上还是质量上,都极大地丰富了生物科学的数据资源。计算机技术和网络技术日益渗透到生物科学的各个领域,一门崭新的,拥有巨大发展潜力的学科-生物信息学应运而生,成为21世纪的前沿性科学。 蛋白质是一类生物大分子,种类繁多,它是生物功能的主要体现者,它广泛、大量存在于生物界。它决定生物的物种性状、新陈代谢类型,各种生命现象和生命活动都是通过蛋白质来表达和实现的。因此蛋白质功能的研究是生物信息学的重要研究内容。蛋白质的结构主要有四级。蛋白质的三维立体结构可以有效揭示蛋白质功能。蛋白质的结构和功能是统一的。传统的实验方法虽然可以解析出蛋白质的结构,但是对实验设备和实验技术的要求很高,而且周期长、效率低,因而利用蛋白质数据库中的信息对蛋白质结构进行预测就显得尤为重要。多年研究发现,从蛋白质一级结构直接推测到蛋白质三级甚至四级结构是相当困难的,而蛋白质的二级结构就成为其中的一个重要桥梁。在以前的研究中发现,二级结构也可以是孤立形成的。这表明蛋白质二级结构预测是必要而且可行的。 随着研究范围的不断扩展,研究资料的不断增加,传统的数据处理方法日益跟不上生物信息学发展的要求。数据挖掘技术是解决上述问题强有力的工具。应用数据挖掘技术对已知数据作检索、统计、比较、分析等处理并发现其中蕴藏的有效信息等,是目前跨学科的,具有应用前景的工作。将数据挖掘应用到生物信息学领域,能够取得传统生物计算技术无法比拟的效果。 本论文的研究目的就是将数据挖掘中的关联分析应用到蛋白质二级结构预测中。我们从蛋白质数据库已知数据中,对已知的蛋白质氨基酸序列及其二级结构进行分析处理,建立合适的数学模型,应用改进的Apriori算法对其进行关联规则挖掘,并利用挖掘出的关联规则集进行蛋白质二级结构预测。并在此基础上建立了一个蛋白质二级结构预测系统。实验证明该方法准确有效。 论文的创新点主要有以下几点: (1)提出一种改进型的Apriori算法,并将其应用到蛋白质二级结构预测中。 (2)目前的预测算法越来越复杂,准确度却提高有限,本论文提出将关联规则应用于蛋白质二级结构的预测,方法简单,有效,挖掘出的关联规则易于从实际角度理解。 (3)将氨基酸序列打散成序列片断,并对其进行关联规则挖掘。实验证明,大部分蛋白质氨基酸二级结构可以通过短序列规则预测出来。 由于各方面条件所限,本预测方法的准确度没有达到最理想的高度。有待进一步改进的地方有: (1)寻找性能更优的关联规则挖掘算法,以减少规则挖掘的时间消耗。 (2)继续丰富用于产生规则的已知二级结构蛋白质。 (3)更新设备。
其他文献
当前,随着信息技术和网络技术的飞速发展,为了适应企业需要,有越来越多的应用系统被开发和应用,我们周围可获取的信息越来越多,人们也越来越认识到这些数据的价值,但是这些资源有时
二进制翻译技术是解决软件代码移植问题的重要手段,也是帮助新处理器架构推广的有效手段。用户级二进制翻译器翻译执行用户态的应用程序;而系统级二进制翻译器翻译执行整个操
随着计算机技术的发展,处理器和存储器作为计算机组成的主要部件,相关技术指标得到了极大的提高与改善。由于器件自身特点的局限性,目前所广泛使用的主存储器在访问速度上严
随着单点登录协议的飞速发展和广泛应用,登录协议实施过程中的安全问题也越来越受到重视。近年来,BrowserID认证协议作为其中的佼佼者,在越来越多的网站上使用,但同样造成的
经过几十年来的实践证明,IPv4协议无论是在技术上还是发展速度上都是一个非常成功的协议,为现代科技做出了不可抹灭的贡献。但是,随着现代科技和生产需求的不断发展与增加,最初的
软件复用可在软件开发过程中避免重复劳动,被视为解决软件危机,提高软件生产率和质量的现实可行途径。它作为软件工程的主要研究课题之一,被认为是使软件开发真正走上工程化
在过去几十年里,大规模和超大规模并行性集群处理取得长足进展,同时由于各种原因,这些机器多采用分布主存或分布式共享主存结构,各厂商开发了针对特定硬件平台的消息传递包或
Web Service的主要目标是在现有的各种异构平台的基础上构筑一个通用的、与平台无关、语言无关的技术层,各种不同平台上的应用依靠这个技术层来实施彼此的连接和集成。为了让
随着互联网技术与应用的迅速发展,Web服务技术的应用已经成为一种趋势,Web服务将传统的功能封装成跨越平台的统一接口提供给用户;另一方面业务功能的复杂化,从B2C到B2B业务的
根据最新的研究发现,软件测试的成本已经占到了整个开发成本的40%到60%。人们希望能降低测试成本,同时进一步缩短软件的开发周期,测试人员也希望摆脱简单重复的测试工作。由于在一