论文部分内容阅读
模式分析解决的是检测数据集合中存在的潜在关系问题,它在现代人工智能和计算机科学应用领域的许多问题中发挥着重要作用。我们可以根据模式理解某个数据源中内在的关系、规律性或者结构。通过检测到的数据集合中的显著模式,系统能够对来自同一数据源的新数据做出相关预测。
模式分析领域较新的研究成果-模式分析的核方法,通过把原本存在非线性关系的数据嵌入到某个可以发现线性关系的空间,达到降低求解复杂度的效果。此法之所以行得通,关键在于存在一条计算捷径:通过核函数,能够不用计算具体的非线性映射,就得到输入数据映射到高维空间后的特征。
随着人类基因组计划的快速发展,生物信息学技术在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。该学科的许多具体研究工作,就是基于海量的观测数据挖掘内在规律,再通过这种内在规律来做出类别判断或者新的功能预测。比如基因序列分类、蛋白质功能预测等等。
综合技术进步与实际应用的需要,可以考虑将“基于核的学习方法”应用于生物序列分类任务,应用过程中的难点就是计算捷径-核函数的合理设计。本文围绕这一难点展开的工作,主要包括以下三个方面的内容:
(1)深入分析了已有的核方法框架。虽然各种任务的目的不同,但是运用核方法的程序,其工作的方式是一致的。算法程序被调整为接受输入数据之间的内积,随后核函数被用来计算输入数据映射到特征空间后的内积,从而使得算法程序在高维空间中仍能正常使用。这一流程说明核方法具有模块性,也证实了它本身作为学习算法的可重用性;
(2)探讨了核的基本性质和构造理论,以此为理论基础,分析了K.Tsuda等人提出的边际核函数定义,并通过在边际核特征空间中,进一步引入特征向量之间的距离作为生物序列相似性的度量,提出了基于离量度的边际核函数定义;
(3)使用K.Tsuda等人提出的边际核函数和本文定义的基于距离量度的边际核函数,利用模式分析的核方法,随后进行了具体的gyrB(旋转酶B亚单位)氨基酸序列分类实验。实验结果证明基于距离量度的边际核的识别效果要优于原边际核,且也具备一定的推广空间。