论文部分内容阅读
非比对序列相似性模型直接采用序列自身的统计信息来计算序列之间的相似度,具有运算速度快、聚类结果准确等优点。提出一种基于位置信息的非比对序列相似性模型,通过提取K词模型中每个词的Local Frequency(LF),计算对应K词的LF熵,并结合K词频率进行序列的特征提取,应用于蛋白质聚类。实验结果表明该方法能够有效地提取序列的信息,提高聚类的准确率。