论文部分内容阅读
采用支持向量机这一新的机器学习方法对DNA序列进行分类,以VB和Matlab为主要工具开发了基于支持向量机的DNA序列分类系统。结果表明:该系统能够动态选择DNA训练样本,待测试样本,以及支持向量机模型中的参数,并根据用户的指定条件动态输出计算结果;对于预测一批已知正确分类答案的DNA序列,系统能够自动统计识别率,以观察参数变化对于算法执行结果的影响。支持向量机能够在概率分布函数未知的条件下对DNA序列进行分类。其中,将DNA序列数字化是设计的一个关键步骤,本文中利用氨基酸出现的概率,得到一组64维的向量组,实现了数字化;训练样本和测试样本均是数据库中的已知样本,这里选择了20组训练样本和10组测试样本,实现一个简单的二分类问题;SVM分类算法采用Matlab语言编写;核函数的选择对实验结果有很大的影响,正确选择合适的核函数也是得到良好实验结果的关键。总之,支持向量机作为数据挖掘的一项新技术,应用在DNA序列分类系统的总体设计中,与传统方法相比取得了相当或更好的结果,使得人们能够在基因组水平上以系统的、全局的观念去研究生命现象及本质。