论文部分内容阅读
21世纪是信息化的时代,技术的发展大大提高了捕获和存储数据的能力。如何将这些海量数据存储、管理和使用就显得越来越重要。本文将一种适用于分布并行计算的广义粒子模型应用于数据聚类和压缩,并对其特性进行了研究和探讨。
本文提出了一种新的进行数据自组织聚类的广义粒子模型和相应的并行算法。所提模型将数据聚类过程转化为粒子在几何构形空间上的随机自组织过程,几何构形随时间不断演化,不同几何构形之间的转移概率决定于所有粒子的聚合调和函数的数值大小,最终几何构形收敛到一个平稳的概率分布,其中具有最大概率的几何构形对应于最优几何构形,并从理论上对此自组织过程的收敛性进行了证明。我们所设计的聚合调和函数可以使得最优几何构形对应于聚合调和函数的最大值。随后我们分析和讨论了广义粒子模型的特性,例如在聚类的过程中加入数据可以充分利用已有的聚类结果,而不用从头开始。仿真实验结果显示广义粒子模型比传统的数据聚类方法具有更快的聚类速度和更好的聚类性能,在对噪声的不敏感性、对聚类数据的强鲁棒性、对高维大规模数据集的适用性、学习的能力以及易于硬件实现等方面都具有一定优势。
本文将“量子纠缠”的特性引入广义粒子模型中,提出了一种新颖的广义量子聚类模型和相应的并行算法。”量子纠缠”的特性在将来是人类可以利用的重要资源,文中分析了“量子纠缠”复合系统的一些适合于群体聚类的特性:其一,对一个子系统的测量结果无法独立于对其他子系统的测量参数,对其中一个子系统进行测量,其它子系统必定同时发生相应的改变,无论它们之间离开有多远;其二,当两个或多个粒子发生“量子纠缠”后,构成一个复合的量子纠缠系统,其状态是一个精确已知的纯态,量子熵为0,而其子系统和其中的个体却处于混合态,量子熵大于0。在根据上述特性提出的广义量子聚类模型中,每个粒子都携带有量子状态信息,数据聚类过程被转化为一个粒子在状态构形空间上的随机自组织过程。其中粒子的状态构形是指阵列中所有粒子相互纠缠的状况,多个纠缠的粒子构成一个纠缠等价类。对于构成同一纠缠等价类的粒子,在几何位置上并不要求聚在一起。根据“量子纠缠”的第二个特性可以得出,当一个纯态的粒子与其它粒子发生纠缠后,其状态由纯态变成了混合态,量子熵由0变成了正数。利用这个现象,我们设计了对应于状态构形的聚合调和函数,使得最优状态构形对应于聚合调和函数的最大值。随后我们对所提模型进行了收敛性证明和特性分析。仿真实验结果表明广义量子聚类模型的收敛速度比起广义粒子聚类模型有了更进一步的提高。
本文还基于广义粒子模型提出了一种基于预测的无损数据压缩的方法,可有效提高基于预测的游程编码的压缩速度。在广义粒子数据压缩模型中,所有粒子可以根据局部规则并行操作,生成预测编码。与现有的无损数据压缩的方法相比,所提出的无损数据压缩的方法可以达到同样的压缩率,同时在并行性、可扩展性、简单性等方面具有优势,并且易于硬件实现。