论文部分内容阅读
当今,生物科学技术迅猛发展,无论从数量上还是质量上,都极大地丰富了生物科学的数据资源。计算机技术和网络技术日益渗透到生物科学的各个领域,一门崭新的,拥有巨大发展潜力的学科-生物信息学应运而生,成为21世纪的前沿性科学。
蛋白质是一类生物大分子,种类繁多,它是生物功能的主要体现者,它广泛、大量存在于生物界。它决定生物的物种性状、新陈代谢类型,各种生命现象和生命活动都是通过蛋白质来表达和实现的。因此蛋白质功能的研究是生物信息学的重要研究内容。蛋白质的结构主要有四级。蛋白质的三维立体结构可以有效揭示蛋白质功能。蛋白质的结构和功能是统一的。传统的实验方法虽然可以解析出蛋白质的结构,但是对实验设备和实验技术的要求很高,而且周期长、效率低,因而利用蛋白质数据库中的信息对蛋白质结构进行预测就显得尤为重要。多年研究发现,从蛋白质一级结构直接推测到蛋白质三级甚至四级结构是相当困难的,而蛋白质的二级结构就成为其中的一个重要桥梁。在以前的研究中发现,二级结构也可以是孤立形成的。这表明蛋白质二级结构预测是必要而且可行的。
随着研究范围的不断扩展,研究资料的不断增加,传统的数据处理方法日益跟不上生物信息学发展的要求。数据挖掘技术是解决上述问题强有力的工具。应用数据挖掘技术对已知数据作检索、统计、比较、分析等处理并发现其中蕴藏的有效信息等,是目前跨学科的,具有应用前景的工作。将数据挖掘应用到生物信息学领域,能够取得传统生物计算技术无法比拟的效果。
本论文的研究目的就是将数据挖掘中的关联分析应用到蛋白质二级结构预测中。我们从蛋白质数据库已知数据中,对已知的蛋白质氨基酸序列及其二级结构进行分析处理,建立合适的数学模型,应用改进的Apriori算法对其进行关联规则挖掘,并利用挖掘出的关联规则集进行蛋白质二级结构预测。并在此基础上建立了一个蛋白质二级结构预测系统。实验证明该方法准确有效。
论文的创新点主要有以下几点:
(1)提出一种改进型的Apriori算法,并将其应用到蛋白质二级结构预测中。
(2)目前的预测算法越来越复杂,准确度却提高有限,本论文提出将关联规则应用于蛋白质二级结构的预测,方法简单,有效,挖掘出的关联规则易于从实际角度理解。
(3)将氨基酸序列打散成序列片断,并对其进行关联规则挖掘。实验证明,大部分蛋白质氨基酸二级结构可以通过短序列规则预测出来。
由于各方面条件所限,本预测方法的准确度没有达到最理想的高度。有待进一步改进的地方有:
(1)寻找性能更优的关联规则挖掘算法,以减少规则挖掘的时间消耗。
(2)继续丰富用于产生规则的已知二级结构蛋白质。
(3)更新设备。