论文部分内容阅读
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所隐含的有价值的信息,是目前最有效的数据分析手段。生物序列数据是生物医学研究的主要内容之一,通过对其进行分析,研究者不仅能够理解已有的序列,而且能够更好地研究新颖的序列及其所拥有的功能,解读序列在它所在的生物体中所充当的角色,进而更好地理解生命的本质。
本文主要针对生物序列分类技术领域中的两个重要的研究方面:生物序列的分类分析和和异常检测。生物序列分类分析能够为未知标号的生物序列指定其所属的类别,进而预测它的功能以及与其它生物序列之间的相互关系,以辅助生物分子中的基因识别和预测蛋白质的结构等。异常检测可视为一类特殊的分类问题,生物序列中的异常主要是指突变或是一种疾病的特征,生物序列异常检测有助于发现突变,了解疾病产生的条件,分析疾病产生的机理,为疾病的诊断和治疗提供依据。
生物序列是由字符组成的序列数据,传统的数据挖掘技术主要适用于数值属性和分类属性的数据,难以直接应用于序列数据。针对上述问题,本文使用滑动窗口技术抽取子序列,并计算子序列在训练序列集中出现的频率,然后将频率值作为序列的特征映射到连续空间中,该方法有效地解决了传统的数据挖掘技术难以处理序列数据的问题。基于转换后的数据,本文给出了一种新的基于支持向量机的生物序列分类算法,通过对蛋白质序列的分类实验验证了该算法的有效性。
在生物序列异常检测技术中,相似性是生物序列异常检测的基础,相似性度量的好坏将直接影响生物序列异常检测的结果。生物医学研究表明,生物异常序列普遍的特点是其中的某些片段发生了改变。基于滑动窗口技术的子序列抽取技术能够有效发现序列中的局部异常,因此本文设计了一种新的基于滑动窗口的共享最近邻相似度,并根据这种相似度给出了基于核的生物序列异常检测算法。通过检测蛋白质异常序列验证了该算法的有效性。
本文设计的算法只考虑了生物序列数据的特点,对大多数生物序列的处理是有效的。但是,在生物进化过程中由于遗传变异,许多同源序列可能发生序列内碱基的替换、或序列片段的缺失,如果仅仅考虑生物序列数据的特点设计算法将会失效,需要结合生物学知识设计有效的挖掘算法。