论文部分内容阅读
近年来,由于传感器网络、分布式计算系统等分布式应用的蓬勃发展,分布式的信息处理受到了越来越多的研究者的关注。对于不同的分布式应用而言,分布式的信息处理是一个共性的科学研究问题。不同的分布式应用在系统架构上都可以抽象为一个由多个具有计算能力和通信能力的节点所组成的网络。在本文考虑的分布式信息处理机制中,网络上的每个节点不仅利用自身的计算能力和数据进行局部计算,还与邻居节点进行局部的信息交互,从而实现完全去中心化的但又具有全局意义的信息处理。当前已有很多基于这种处理机制的分布式算法被提出来。相关的研究内容覆盖了各类信号处理问题和机器学习问题。在这些分布式算法中,大都是基于数据相关的二阶统计量来定义目标函数。但是当分布式环境中存在非高斯噪声或者需要处理的数据的分布较为复杂时,二阶统计量将不能充分的利用数据中的有效信息。针对这些情况,本论文基于信息论测度来为分布式学习问题设计目标函数。信息论测度能够从数据的整体分布出发,综合利用更高阶的数据统计信息,从而带来学习性能的提升。但由于分布式场景中的一些约束与限制,在引入信息论测度时会遇到困难。分布式信息论学习在以往的文献中还未见报道。我们针对分布式环境中三类主要的学习问题,即监督学习、无监督学习、半监督学习开展了系统的研究,克服了其中的难点,并提出了相应的有效的分布式信息论学习算法。具体地,本文针对属于监督学习的分布式参数估计问题,提出了基于最小化误差熵的分布式估计算法。我们在误差熵的估计上使用了两种不同的且容易计算的熵估计器,即二次Renyi熵估计器与香农熵界估计器,从而推导出了两种不同的分布式信息论估计算法。在算法中,节点间通过传递参数的估计值来进行协同学习。仿真结果表明,在非高斯噪声下,本文提出的分布式估计算法比分布式的最小均方误差估计算法有更高的估计精度。本文针对属于无监督学习的分布式聚类问题,提出了基于最大化互信息的分布式聚类算法。在算法中,我们采用参数化的判别函数来对类间边界进行建模,并基于判别函数来估计互信息。节点间通过传递判别函数的参数来进行协同学习。我们在合成数据和真实数据上测试算法的聚类性能。仿真结果表明,本文提出的分布式聚类算法得到的聚类结果接近于相应的集中式信息论聚类算法得到的结果。当数据的分布较为复杂时,本文提出的算法的聚类结果比分布式的K-means算法得到的结果更为理想。此外,本文针对另一个属于无监督学习的分布式向量量化问题,提出了基于最小化KL散度的分布式量化算法。在算法目标函数设计中,我们在散度的类型和方向上进行了细致的考虑和选择,从而使得推导出的分布式算法能够让每个节点以在线的方式协同学习到接近于集中式处理结果的重建向量。仿真结果也表明,当数据中存在较多野值时,本文提出的分布式量化算法比分布式的LBG算法和分布式的SOM算法的量化性能更好。本文针对半监督的分布式度量学习问题,提出了基于信息论测度的分布式度量学习算法。我们基于两种常用的分布式合作策略推导出了两种分布式半监督度量学习的框架。特别地,通过借鉴集中式的SERAPH算法来设置分布式度量学习框架中的损失函数及正则项,我们得到了两种基于信息论测度的分布式度量学习算法。仿真实验显示了这两种算法与集中式的SERAPH算法能学习得到接近一致的度量矩阵。这说明了本文提出的两种算法是在无法进行集中式的半监督度量学习时的一个理想的分布式近似。