论文部分内容阅读
数字化我们的地球与人类的活动所引发的信息化、智能化与自动化所产生的巨量(大)数据不可避免地存在严重冗余重复和不一致,提高了数据处理的难度,成为消费资源的一种隐性成本,为有效的管理和集成提出了严峻挑战。特征融合的目的在于去除给定原始特征数据中的重复冗余和不一致,更好地提高其完整性与精确性。不一致表示相同的数据实体不具有相同或相似的基本特征,完整性意味着用户没有遗忘任何目标数据源,而精确性意味着目标数据源没有被重复表示并且不存在矛盾之处。已有的特征融合方法理论基于经典数据表示形式,在去除冗余重复特征数据的有效性和效率方面还存在不足。Shor因子分解和Grover搜索等量子算法的提出以及量子计算机的出现,为高效地解决重复特征数据融合的问题提供了新的途径。本文以不同于经典实数表示形式的量子态、量子相角、基于量子位的密度矩阵等作为特征数据的表示形式,从理论物理学和计算机科学交叉角度研究基于量子表示形式的特征数据清理(简称“特征清理”)和特征数据融合(简称“特征融合”)方法理论,以及基于碰撞反应机理的经典的和量子的特征融合方法理论,主要内容包括:(1)基于冯·诺依曼熵的特征清理方法。根据冯·诺依曼熵理论,计算特征样本的冯·诺依曼熵贡献度和熵增加值,以此作为检测低质量样本的依据,然后采用酉算子对它们进行数据转换,从而提高给定原始特征数据的完整性和精确性等数据质量。(2)基于量子表示形式的特征融合方法。将特征样本元素的经典实数表示形式转换成量子相角表示形式,并通过离散化和量子测量对重复特征样本进行检测与融合,从而提高给定原始特征数据的精确性与完整性,并与经典特征融合方法进行性能对比。(3)基于香农熵和冯·诺依曼熵的特征融合方法。根据香农熵和冯·诺依曼熵理论,计算每个特征样本的熵及其与其他样本之间的关联熵,依照最大关联熵原则对重复样本进行检测。基于香农熵的特征融合方法根据样本概率比重对重复样本进行融合,而基于冯·诺依曼熵的特征融合方法采用量子操作对重复样本进行融合。(4)基于数据融合碰撞反应机理的特征融合方法。根据数据融合的特点,建立旨在扩大重复数据和非重复数据之间差异的数据融合碰撞反应机理,并基于碰撞反应机理提出更加简单有效的重复检测与特征融合方法,包括经典的和量子的。(5)基于冯·诺依曼熵的特征融合体系。根据冯·诺依曼熵理论,将特征数据清理、检测与融合结合在一起构成特征融合体系。在重复检测与特征融合模型相同的情况下,对经过清理后的特征数据进行融合比对原始特征数据进行融合能够更好地提高给定原始特征数据的完整性与精确性。实验结果表明,基于量子表示形式的特征清理方法能够较好地提高给定原始特征数据的质量,而基于量子表示形式的特征融合方法比传统特征融合方法能够更好地提高给定原始数据的精确性与完整性。理论上,借助于量子并行性的效应,基于量子表示形式以及数据融合碰撞反应机理的特征融合方法对应的量子算法在量子计算机上具有远高于经典算法的时间效率。因此,本文的研究对于数据融合的量子算法和大数据处理具有重要的理论和应用价值。