论文部分内容阅读
在当前信息爆炸的时代中,人们所面对数据越来越多,而且其种类的多样性和结构复杂性都是前所未有的。这便使得对数据的自动化分析与处理更为迫切和渴求。由于聚类分析能够有效地发现数据的内在结构并简化数据的表达,它越来越受到人们的重视。但传统的聚类分析方法依赖于事先给定的聚类数,其应用范围受到了很大的限制。如何确定一般给定数据集中的真实聚类数则是聚类分析研究中最具挑战性的问题之一。基于AIC(Akaike InformationCriterion)、BIC(Bayesian Inference Criterion)等准则的聚类数或模型选择方法需要多次聚类过程才能确定出数据中的正确聚类数,将耗费大量计算。其它的一些新发展的聚类分析算法具有自适应模型选择的能力,但是其计算效率依赖于初始聚类个数的选取。本文提出一种简单有效的步进剪枝方法,尝试不通过聚类直接确定或估计出数据集中的聚类个数。步进剪枝方法的基本思想是通过对数据的修剪,为每一个类保留一个代表点,那么代表点的个数即是数据中聚类的个数。为了实现这个思想,我们定义数据点与邻域大小相关的分布密度。在给定邻域下,删除每个邻域范围内的低密度数据点,保留最高密度数据点,完成一轮剪枝,然后增加邻域大小,并重复这个过程。数据中聚类的可分性保证了存在一个阶段,当邻域大小在一定范围内变化时,剩余数据点的个数将保持不变。这些点就是我们要找的真实聚类的代表点,而其个数即是数据中聚类的个数。更进一步,这些点可以粗略地看作聚类中心。另外,我们还将具有自适应模型选择功能的对手竞争惩罚学习(Rival Penalized CompetitiveLearning)方法和基于模型选择准则的高斯混合模型的聚类方法应用到石油地震波数据的分析中,更加准确地确定了油气的储藏。 图像分割是图像处理和计算机视觉中最重要的问题之一。它在实际中有着广泛的应用,如遥感图像分析、医学图像处理等都依赖于图像分割技术。其目的在于简化图像的表示,便于图像的分析和理解。一般地说,待分割的对象都有着完整的结构。例如,医学图像中的器官与组织等。这便对图像分割结果的完整性提出了实际要求。但是,传统的基于像素点个体信息建模的方法容易受到噪声、低对比度等问题的干扰,通常无法得到令人满意的完整性分割结果。为了克服这一缺陷,我们提出局部聚类和整体分类相结合的图像完整性分割方法。首先通过局部聚类将图像过分割为有意义的局部区域(超像素),然后再利用聚类、分类等模式识别方法从中选出属于待分割对象的部分,并将其组合为分割对象。这种方法的优点在于一方面局部聚类能够克服噪声、低对比度以及不均匀背景的影响,保证局部区域作为一个整体的完整性。另一方面以局部区域为处理单位也能更好地体现人们对于分割对象的认知。此外,局部区域往往会比像素点提供更多的有意义的特征,使得分类更加准确。图像完整性分割的另一层含义是利用对于分割对象的理解,保证分割结果的整体完整性,如血管的连续结构。这也是我们的最终目标。 在二维血管分割问题中,我们引入了超像素的相对亮度、形状规则性以及方向特征,并利用方向一致性构建马尔可夫随机场模型建模相邻超像素之间的相互影响,通过最大化贝叶斯后验概率准确的重建了正常胸部组织和乳腺癌组织中的血管结构。在三维血管重建和三维CARS图像细胞核分割问题中,我们为超像素设计了多种有意义的特征,并利用半监督学习中的图传导模型克服了选取大量训练样本的困难,结合少量人工标注信息和数据自身结构,成功的完成了三维血管结构的重建和细胞核的分割。这些结果对于乳腺癌的发生、发展机制的研究和肺癌子类的准确划分有着重要的意义。