论文部分内容阅读
根据DNA初级序列的特性,把DNA初级序列转换成数字序列,即离散的时间序列:A,T,G,C用1,2,3,4表示。蛋白质与DNA和RNA一样,也是线性大分子。它是字符集N={A C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}上的字符串。蛋白质序列的比较不仅仅是字符串本身的比较,还要考虑他们的化学结构和化学性质。我们根据20种氨基酸的化学性质以及蛋白质二级结构的相关性质把它们分成四类:亲水,极性,带电荷X=HPC={D,N,S,H,T,C};疏水,非极性Z=HA={Y,F,V,I,W,M,L};非极性且体积小B=AS={G,P};其它J=O={R,K,E,A,Q}。同理,根据蛋白质初级序列的特征,把蛋白质初级序列转换成数字序列,即离散的时间序列:X,Z,B,J用1,2,3,4表示。基于此,本文利用矩阵表示DNA初级序列和蛋白质初级序列的结构,提出结构矩阵,以结构矩阵为基础建立DNA和蛋白质初级序列的相似性比较模型,并且对DNA和蛋白质初级序列进行了相似性研究,发现相似性评估的合理的价值。此外,矩阵的变换增强模型的适应性。