论文部分内容阅读
在大数据背景下,对海量数据的分类和聚类是机器学习中的重要步骤。然而,可用于训练的大数据拥有更丰富的数据特征,并且冗余的特征数据会大大增加计算的复杂度,在经典领域中,计算资源以及存储容量已经成为亟待解决的问题。量子的叠加特性和并行计算能力能够很好地解决这一问题。因此,在量子领域中寻找针对分类和聚类问题的可行且高效的算法,是一项很有理论价值和研究意义的工作。本文借助量子机器学习中非常重要的数据预处理算法(即量子特征选择和主成分分析算法),能够很好地解决在海量特征数据较难提取以及计算复杂度较高的问题,对提高计算效率和节省资源消耗具有重要的意义。本文分别研究了针对多分类问题的量子特征选择算法和针对聚类问题的量子主成分分析算法。本文的主要研究内容如下:(1)经典多分类特征选择算法的计算复杂度会随着样本的规模和特征的数量显著增加,并且经典计算机的存储容量和计算能力都有一定的局限性。以降低算法复杂度和提高算法效率为目的,本文提出了一个基于多分类问题的量子特征选择算法。本算法通过计算样本的相似度来迭代更新样本点的权重向量,并根据阈值选择出合适的特征。在寻找最近邻的k个样本过程中,本算法使用Grover-Long算法给整个搜索过程进行了二次提速。经过对比三个相关算法本文进行了具体的研究分析,证明了本算法在相似度计算复杂度、寻找最近邻点复杂度以及资源消耗三个方面有着明显的优势。最终在Regetti量子云平台上完成相关量子实验,验证了本算法的可行性。(2)经典的聚类问题在簇中心的选取上易受异常点影响,并且随着样本数和聚类数目的增加,在距离计算上需要更多的计算资源。本文以提高算法效率和降低资源消耗为目的,提出了一种基于聚类问题的新型量子主成分分析算法。本算法通过对原数据集矩阵进行奇异值分解后压缩,提取主成分。然后更新还原主成分的奇异值,从新数据子集的势能函数中选出k个最小值作为此样本集的簇中心。同时,采用优化的最小值搜索算法改进搜索过程,其使用动态策略来减少算法的迭代次数。经过对比四个相关算法本文进行了具体的研究分析,证明了本算法在簇中心选取时间复杂度,搜索时间复杂度和资源消耗方面都有所降低。最终借助Cirq工具包完成量子实验,验证本算法的可行性。