论文部分内容阅读
随着计算机科学的发展,人类社会已经进入到大数据时代。在大数据时代,数据分析技术成为了利用大数据资源的关键工具,能够发现数据中的价值,就能够在大数据时代占据先机。数据挖掘作为数据分析的关键技术,在大数据时代有着广泛的应用前景。数据挖掘能够发现数据中隐藏的知识,充分利用数据资源,在一定程度上解决数据庞大而知识匮乏的问题。在数据挖掘中,主要有三种分析方式,分类,关联和聚类。分类和关联在机器学习中属于监督型学习算法,聚类属于非监督型学习算法。在大数据时代,往往强调全数据集的挖掘和学习,并且很难有合适的训练集对算法进行训练。因此,非监督学习算法更适合大数据时代的背景,聚类分析也成为数据挖掘的研究热点。本文针对数据挖掘中的聚类问题,提出了矢量数据场的理论、数据场数据质量的新概念、数据质量聚类算法、基于势熵的峰值密度聚类算法。并使用人脸表情识别和人脸自动聚类两种实例对相关的理论和方法进行了检验。首先,数据场是一种分析数据的模型,经典的数据场理论通过势能描述数据在数据集中的分布情况。本文在其基础上,提出了矢量数据场的概念,让数据场不仅能描述数据的分布,还可以描述数据的运动趋势,并通过哈密顿算子统一了矢量数据场和数量数据场的模型。其次,数据场的概念来源于物理场,而物体在物理场中有质量,因此,数据在数据场中也应有质量。本文提出了数据质量的新概念,即代表数据在数据集中的固有属性,并随着挖掘视角的改变而变化,其本质是衡量数据在特定挖掘视角下的权值。对于数据场中不随挖掘视角改变的属性,本文提出了数据场基本矩阵的概念,并建立起数据场基本矩阵、数据质量和数据势能的线性方程组。数据场基本矩阵进一步将数据场的计算矩阵化,并在此基础上提出数据最优质量的内凸点解法,解决了经典数据场理论求解最优数据质量受初始点选取影响的问题。在势能与质量的方程组基础上,结合“学习机”的思想,提出了基于非齐次线性方程组的最优数据质量的求解方法,提高了数据质量求解的效率。然后,在数据质量的基础上,提出了数据质量聚类算法。让数据质量代表数据的密集程度,找到聚类中心,并通过一次迭代完成聚类。该方法解决了传统划分聚类算法聚类中心确定不准确,需要提前输入聚类个数等问题。对于《Science》上发表的“峰值密度聚类算法”,需要手动设定阈值的问题,提出了基于势熵的峰值密度聚类算法。该方法基于香农熵与聚类不确定性之间的关系,建立起香农熵与阈值之间的关系函数,由此来确定每个数据集所对应的最佳阈值,提高了聚类算法的普适性。最后,通过人脸表情识别和人脸自动聚类对新理论,新概念和新方法进行了检测。结果表明,数据质量能够很好地反映出像素点在人脸表情中的权值,并能构建出较好的人脸表情特征脸,得到理想的识别结果。而数据质量聚类算法和基于势熵的峰值密度聚类算法在人脸自动聚类中能够得到优于峰值密度聚类算法和DBSCAN等经典聚类算法的结果。