论文部分内容阅读
随着模式识别研究的不断发展,系统需要辨识的模式类别日趋丰富,客观世界的多样性使得模式识别的任务极为困难。客观世界的任何事物都有它的整体和局部,整体和局部二者既相互区别又相互联系。由于不同的模式,其局部信息和整体信息的可见度、可获得性和准确性是有差别的。如何综合利用样本的整体和局部的信息提高模式分类的精度是近来模式识别的一个研究热点。分类识别任务面对的数据常常分布在不同的区域、不同的组织。随着公众对个人隐私关注程度的提高,以及企业对商业机密的保护意识的增强,如何在保证隐私的前提下对模式进行高效准确的分类是近年来模式识别领域研究的热点之一。本文在整体和局部的协作式学习以及协作式分类在隐私保护中的应用两个层面上进行了相关的研究,主要工作和学术创新如下:(1)全局学习和局部学习的分类方面提出了三个新的算法。即,(a)协作式整体和局部的分类机C2M,该分类机将正类和负类样本的协方差作为整体信息,分别引入到两个分类器中,获得两个带整体和局部信息的分类面,并由这两个分类面协作,得到最终的最优判决平面。该算法可用两个二次规划求解,对于有N个样本的训练集,时间复杂度为O(N3),大大小于原来的全局局部学习机M4的O(N4),分类精度高于只利用了局部信息的SVM。我们给出了该算法的几何解释并在理论上证明了,在交遇区较多时,C2M可以比M4更有效地利用全局信息,同时提出了判断整体信息对分类是否有贡献的四个判别指标. M4可以通过核化的方法实现非线性分类,并且在特定的条件下可以转化为SVM;(b)针对异常检测中正常样本比较多,同时又有少量异常样本的情况,利用正常类的方差作为整体信息使分类线保持和正常类的空间分布一致,同时最大化分类线和异常点之间的间隔的思想,提出了一种方差保持的异常检测分类机CP-ND,该算法的对偶问题可以用二次规划求解。算法中引入的三个参数ν,ν1和ν2和训练时的误分率和支持向量率之间有简单的约束关系,可以方便地调节;(c)针对现有的全局和局部学习机的泛化性能依赖样本的统计分布的问题,提出了广义局部保留分类机GLPM,该分类机利用同类样本的近邻信息构造了各自的类内局部保留的散度矩阵,通过分析该矩阵和协方差矩阵的关系,证明了特定的距离假设情况下,类内局部保留的散度矩阵等价于协方差矩阵,从而可以用该矩阵替换C2M中的协方差矩阵,使得GLPM具有更好的鲁棒性。(2)以支持向量压缩为基本方法,研究支持向量集的快速分类算法。提出了一种约简支持向量的快速分类算法FD-SVM,证明了收紧新的快速决策函数和原始决策函数之间的分类误差等价于在样本空间对原始支持向量进行K-means聚类操作,并给出了求解新的稀疏化后的支持向量对应的权重系数的算法。(3)基于整体信息可以隐藏真实数据的功能,提出了一种具有隐私保护功能的分类器LP2M,该分类机利用两类样本各自的均值和协方差作为整体信息,将整体信息共享给对方,参与分类的双方分别使用各自的隐私数据和对方的整体信息训练获得两个可以保护隐私的分类器,并由两个分类器协作得到最终的分类器。训练过程不需要任何加密计算。针对测试过程的隐私保护,设计了可以保护待测样本的隐私和分类规则不泄露的安全算法,并证明该算法在半可信模型中是安全的。在LP2M线性模型的基础上,分析了LP2M和MPM、SVM以及M4处理隐私数据的区别和联系。在LP2M的基础上,进一步提出了一种针对水平划分数据的具有隐私保护功能的分类器HP2M,该算法和LP2M一样,利用了整体信息实现隐藏真实数据的功能。我们设计了安全计算算法,可以比较准确地估算HP2M的整体信息,并且在训练阶段不需要任何加密计算,HP2M较LP2M有更好的数据适应性。