论文部分内容阅读
真核基因受体位点识别问题是生物信息学中的重要问题之一.该文基于智能信息处理技术对受体位点识别问题进行了尝试性的研究,取得的主要研究成果如下:(1)该文建立了真核基因受体位点数据库,对真假受体位点数据各坐标位置的碱基含量进行了统计,计算了各坐标位置与数据真实结果的相关系数.论文对统计结果进行了分析,结果表明在AG碱基上游存在着一段对受体位点识别有重要作用的保守序列,可以帮助识别受体位点.(2)该文提出了基于LVQ网络的受体位点识别模型,该模型的输入是基于4维编码方式的受体位点序列,序列长度为50碱基,每位碱基由4个神经元编码,因此模型的输入层为200个神经元,竞争层神经元取25个,输出层神经元设计为2个,分别对应真实和虚假受体位点.实验研究显示,此模型对测试集中正负样本的识别率分别达到70%和85%以上.作为一种方法,LVQ模型对真核基因受体位点识别具有参考价值.(3)真核基因受体位点识别作为基因识别中的重要环节,一直受到研究人员的关注,研究结果显示受体位点的识别与分支位点有关,然而目前无人将其作为专门的问题予以深入研究.该文从受体位点识别出发,选取了不同的受体位点序列长度,以BP网络为识别工具,对分支位点在受体位点识别中的作用做了深入研究和分析,实验结果表明,受体位点序列的特征信息集中在分支位点一侧,因此分支位点在受体位点识别中具有重要作用.最后,该文在相同情况下对BP网络和LVQ网络的识别性能做了比较,实验表明在受体位点识别问题上,BP网络的识别效果优于LVQ网络.(4)该文提出了一种基于受体位点Motif序列的受体位点算法,首先提取学习组数据Motif序列组成受体位点Motif数据库,然后提取训练组数据Motif序列与Motif数据库数据进行匹配,得到相应的分值,分别取训练组中正样本的最小分值和负样本最大分值作为判别依据.实验研究结果表明,此方法对测试组中的正样本识别率达到85%以上,负样本的识别率达到90%以上.该文部分研究成果发表于《生物物理学报》、《Proceedings of 2004 World Congress on Intelligent Control and Automation》和《第22届中国控制会议论文集》.该课题得到了国家自然科学基金的资助.