论文部分内容阅读
模式识别通常认为是一个工程领域的问题,它集中研究系统的开发和评估,这个系统模仿并增强了人类识别模式的能力。但是,它也可以认为是一门科学,研究人类或其它生物学系统的发现、区别和刻画周围环境中的模式从而识别新的观测对象的能力。模式识别的工程方法试图建立模拟这种现象的系统,这样做,也就获得了为了识别模式所需要的科学理解。但是目前模式识别模型中有一些约定俗成的假设需要重新考虑,例如数据表示问题等。因此在多元数据图表示的多年研究工作基础上,提出将传统模式识别数据的特征表示转化为数据的多元图表示,从而开辟了一个新的研究方向:多元数据图表示模式识别。论文以模式识别中存在的数据表示问题和分类问题为背景,以多元数据2维(2D)图表示方法作为手段,以多元图图形特征提取和图形分类器为基础,以建立基于多元数据图表示模式识别理论框架为目的,开展可视化模式识别新方法的研究。首先给出了非图特征进行多元图表示的一般原理,研究了非图特征进行多元图表示(即公式表示、矩阵表示和几何表示)的数学理论框架,给出了非图特征进行多元图表示的唯一性定理及其证明。其次,研究了多元图的图形特征提取方法,给出了多元图图形特征提取的几何思路,特别对于多元数据星点图表示提出了面积、重心等图形特征。发现非图特征进行图表示存在的特征排序问题会导致不同特征排序下生成多元图图形特征的分类性能不同。因此研究了最优分类性能下对应的特征排序方法,第一种思路采用传统特征选择方法中的特征排序方法,第二种思路采用基于全局优化的随机搜索算法(如遗传算法等)用于特征排序方法,第三种思路提出适合本问题的准则函数用于寻找最优的特征排序。再次提出了升维变换和特征选取思想并给出了方法实现。升维变换和特征选取是指,先对原始特征进行所有特征排序下多元图的图形特征提取,然后同时从原始特征和提取特征中选择出部分特征。可以猜测选取特征分类性能最差也是优化的特征排序下的鉴别图形特征的分类性能。接着研究了选择的部分特征的维数与分类性能之间的经验关系并用于指导选择维数。最后研究了基于多元图的图形分类和聚类方法。提出图形不相似度的定义和公式,按照模板匹配思想提出基于图形不相似度的单原型图形分类器,按照K近邻的思想提出基于图形不相似度的K近邻图形分类器。还研究了基于多元数据脸谱图的聚类和分类算法及其在健康智能家庭多源多维信息融合中的应用。整个系统采用Matlab编程实现设计思想。葡萄酒、乳腺癌和糖尿病等UCI真实数据集的最佳分类错误率分别达到了0%、1.61%和20.7%,优于国际分类性能比较的最优值,实验结果证实了我们的想法。