论文部分内容阅读
对蛋白质的研究是当前生命科学的研究热点之一。由于蛋白质的功能由其自身的结构决定,所以研究蛋白质晶体的结构对我们理解蛋白质的功能,蛋白质分子之间的相互作用以及蛋白质分子和其他生物分子之间的协作机制都有很重要的意义,并且对生命科学,生物医学和人类生活等方面也都有很深远的影响。
当前蛋白质晶体研究领域中存在的主要问题是难以获得足够的适宜蛋白质晶体。蛋白质结晶是一个多因素共同作用的过程,而目前并没有确定的规则可以用来指导蛋白质的结晶。所以现在采用的主要方法是利用高通量的蛋白质结晶设备培养大量的蛋白质结晶样本,然后研究者从这些结晶样本中挑选出符合实验条件的蛋白质晶体,并同时寻求合适的蛋白质结晶条件。由于实验样本数巨大,完全依靠人力来处理这些实验样本既费时又费力。因此,一个实时性强,准确度高的蛋白质晶体自动分类系统在蛋白质晶体研究中必不可少。
国内外对于蛋白质晶体自动分类系统的研究大部分都还处于初始阶段。由于实验设备以及实验环境的差异,产生的蛋白质晶体样本也不同,因此不同研究者提出的蛋白质晶体分类算法并无法通用。另外,对于不同分类模型的选择还只是一个经验性的过程,对于使用何种分类算法还缺少理论的和实验上的依据。基于以上原因,我们提出了一种新的基于图像的蛋白质晶体分类算法,本文提出的蛋白质晶体分类算法主要由三部分组成:
1.对原始图像进行图像预处理与图像分割,寻找出图像中需要进行识别的区域。
2.在待识别的区域中进行特征提取操作,通过一系列的数学变换,将图像数据转化为特征数据,从而使得分类模型可以根据获得的特征将图像归入正确的类别。
3.利用一系列类别已知的特征数据训练一个分类模型,并利用训练好的分类模型对未知类别的特征数据做出分类。
本文完成的主要工作包括如下方面:
1.提出由自动阈值分割,主动轮廓线模型和区域搜索三部分组成的蛋白质晶体图像分割算法。
2.用一系列特征提取算法寻找最能代表图像性质的特征,这些特征包括图像的统计特征,几何特征,纹理特征和频谱特征。
3.采用了几种不同的分类器对特征数据进行分类,并比较了不同分类器的分类性能。
4.对分类算法中使用的特征显著性进行了分析。探讨了不同特征对分类性能的影响。
我们将该算法在蛋白质结晶图像数据集上进行试验,验证了算法的有效性,对于蛋白质晶体的识别正确率达到92.7%